大型语言模型简史

什么是语言建模的里程碑?

Federico Di Dio photography

在人工智能不断演进的叙述中,语言建模(LM)已经成为重要的篇章。它不仅是技术进步的追求,更是理解和复制人类语言这一根本特征的探索。LM的目标是通过模拟单词序列的概率来解开人类沟通的复杂织锦,这是一项既复杂又雄心勃勃的任务。这包括预测对话中的下一个词或填补文本中的空白,类似于教导机器掌握人类语言的直觉艺术。LM的旅程标志着四个独特的发展阶段,每个阶段都代表着我们在将机器的计算精度与人类语言的微妙流畅相融合的追求中的一次飞跃。这些阶段不仅仅是人工智能的里程碑,也是我们对语言、认知乃至我们自身更深层次理解的反映。

第一阶段:统计语言模型(1990年代)

在1990年代,人工智能的故事迎来了一个新篇章,统计语言模型(SLMs)的出现带来了这一变化。这些模型就像大海上的早期航海者,用基本的工具探索未知的领域。SLMs背后的原则很简单:通过观察最近的词语来预测下一个词语,就像根据之前的音符猜测下一个音符在旋律中的位置一样。这种方法基于马尔可夫假设,导致了n-gram模型的产生,其中'n'代表了预测中考虑的词语数量。

这些早期的SLM包括二元和三元模型,开始应用于信息检索和自然语言处理领域,就像初出茅庐的鸟儿尝试自己的第一次飞行一样。然而,它们的飞行并不顺利。这些模型面临着所谓的“维度诅咒”。简单来说,当它们试图从更复杂的句子中学习时,它们需要理解的信息量呈指数级增长,使它们不堪重负。为了帮助这些早期模型应对这个问题,研究人员开发了回退和Good-Turing估计等技术,相当于在广阔的词汇海洋中给它们提供了一枚指南针。

在语言模型的历史阶段中,更多的是启航而不是开拓新的视野。这些模型受限,常常难以完全理解人类语言的复杂性。然而,这是一个关键的第一步,证明了人类渴望创造出能够像我们一样理解和沟通的机器的努力。

第二阶段:神经语言模型(2000年代)

随着我们迈向统计语言模型的一页,2000年代初引入了神经语言模型(NLMs)的时代,这是从帆船到蒸汽机的转变一样重要的飞跃。这些模型不仅仅是计算单词及其出现次数,它们开始通过使用神经网络来理解语言,这是人类神经通路的数字等效物。

NLMs(神经语言模型)——受人脑启发的结构——使用神经网络的层级(如多层感知器和循环神经网络)来把握单词序列的概率。一个突破性时刻是引入了词语分布式表示的概念。想象每个词不仅仅是独立的实体,而是连接在一个庞大空间中的点,通过意义和使用方式与其他词相连。这是从简单地预测下一个词到理解整个语言的图景的转变。

在这个时代里的里程碑之一就是word2vec,它将复杂的神经网络简化为更易处理但非常有效的工具。它使机器能够根据上下文学习词语的微妙差别。这不仅仅是关于预测文本,而是教会机器理解词语的本质和它们之间的关系。

语言模型的到来标志着一个转折点

语言模型不再仅仅是关于单纯的单词排序,它开始学习并代表人类语言丰富的纹理。这不仅是技术上的进步,更是我们在创造能够理解我们语言的机器方面的范式转变。

它不仅仅关于字母和声音,它关乎语言的灵魂。

第三阶段:预训练语言模型(2010年代)

在语言模型的不断发展中,预训练语言模型(PLMs)的出现标志着一个新的时代,类似于工业革命对变革性影响的。这些模型引入了一个激进的想法:不是为每个新任务从零开始,为什么不先教模型掌握语言的广度,然后再让它专门化?这是从机器在真空中学习语言的世界转变到它们首先吸收了人类沟通的广阔领域的一个转变。

在这个方向上的第一步是由ELMo通过使用双向LSTM网络来实现的。可以将其看作是教会机器理解上下文的方式-既是词语之前发生的,也是之后发生的,就像在熙熙攘攘的咖啡馆中理解对话一样,从各个方面捕捉到片段。ELMo不再使用固定的词语含义,而是根据上下文进行调整,使语言理解更加流畅和自然。

然后在这个旅程中出现了一个飞跃 - BERT,基于Transformer架构构建,这是一个与印刷术对于人类读写能力发展一样重大的突破。BERT使用了自注意机制,使其能够衡量一个句子中不同词语的重要性。它在大量未标记数据的基础上进行了预训练,类似于阅读整个图书馆,然后再进行特定任务的微调。这种方法极大地提高了机器对于语言细微差别的理解能力,树立了新的性能标准。

在BERT之后,创新浪潮席卷了这个领域。像GPT-2和BART这样的新架构应运而生,每个架构都带来了各自的优势。“预训练和微调”范式成为了新的常态,这是一种策略,模型首先学习语言的一般理解,然后针对特定任务进行定制。

这一语言模型发展阶段不仅仅是关于科技的进步,它是关于重新定义机器与广阔而复杂的人类语言世界之间的关系。PLM 不仅仅是工具,它们就像数字学者一样,先广泛学习语言,然后将这些知识应用于特定的挑战中。

第四阶段:大型语言模型(2020年代)

随着语言模型发展的当前前沿,我们遇到了这个领域的巨人:大型语言模型(LLMs)。这些模型在知识和语言理解方面与亚历山大图书馆相当。扩大这些模型——增加它们的(脑)规模和学习数据的量——已经带来了显着的进展,就像一个村庄图书馆和一个庞大的国家档案馆之间的差异一样。

假设有一个像GPT-3这样的模型,拥有1750亿个参数,或者像PaLM这样的模型,拥有更令人惊叹的5400亿个参数。这些并不仅仅是它们前代的变大版本;它们处于一种独立领域,展示出较小模型无法想象的能力。这就像将一个熟练的讲故事者与整个文明的集体智慧进行比较。例如,GPT-3可以在很少的指导下解决问题,仅仅通过一些例子就能学习,这是GPT-2等以前的模型无法达到的壮举。

这种规模和能力的激增导致了“大型语言模型”或LLMs这个词的创造,以突显它们与较小模型的区别。LLMs的一个显著应用是ChatGPT,它利用GPT模型的力量进行对话,并展示了与人类几乎相似的聊天和回应能力。ChatGPT的发布引发了研究的激增,如相关学术论文数量的指数级增长所示。

然而,重要的是要明白,LLM(语言模型)并不仅仅关乎规模。它们代表着人工智能领域的一次哲学转变。早期的语言模型仅满足于生成文本,但像GPT-4这样的LLM现在正在解决复杂任务。从仅仅生成文本到解决任务的这一转变是科学思维的一次巨大飞跃,是朝着不仅仅模仿语言而是利用语言进行思考、推理和解决问题的模型迈进的飞跃。

在我们绘制这一旅程的过程中,我们可以清晰地看到能力的发展。统计语言模型最初作为特定任务的助手,例如查找信息或辅助语音识别。然后,神经语言模型转变焦点,学习多功能特征,减少人类在教授机器方面的需求。预训练模型带来了上下文感知能力,精细调整自己以适应特定任务。现在,LLMs成为通用问题解决者,它们广博的知识使其能够以前所未有的效率应对各种任务。

在这个语言模型的宏大叙事中,我们见证了这些模型在能力上的扩展,也见证了它们的目标所追求的。从基本的文本生成到复杂的问题解决,语言模型的故事反映了我们对人工智能和人类智能认知的旅程。

在这个语言模型进化的史诗般探险中,我们不仅目睹了技术奇迹,还瞥见了人类智慧和沟通的深度。如果这段旅程在您心中激发了好奇或领悟,一声赞赏👏将倍感热情欢迎。对于那些希望进一步支持这次航程的人来说,只需简单为我买杯咖啡的姿态就能推动我们集体追寻语言和智能的领域。每一份支持都是解开更多谜团的一小步。

2023-12-31 04:29:02 AI中文站翻译自原文