LLMs 背后隐藏的学习:在不教的情况下教导机器

发现AI模型如何在没有人为干预的情况下从大量数据中学习,如GPT和BERT。

在近年来,诸如GPT-3、GPT-4和BERT等大型语言模型(LLMs)已经彻底改变了自然语言处理(NLP)领域。这些基于变压器架构的模型能够以非凡的准确性理解和生成类似人类的文本。它们成功背后的关键技术之一是自监督学习,这使它们能够从庞大的数据集中学习,而无需手动标记数据。

在这篇文章中,我们将深入探讨LLMs中自监督学习的工作原理,并用例子解释关键概念。

什么是自我监督学习?

自监督学习(SSL)是一种利用数据结构本身生成训练标签的机器学习类型。与需要手动标记数据的监督学习不同,SSL从输入生成自己的标签。这使模型能够从未标记的数据集中学习,这些数据集更容易获取。

在LLMs的情况下,自监督学习通常涉及从其他部分预测输入数据的一部分。这可能意味着预测句子中的下一个单词或填写缺失的单词,而无需人为参与标记数据。

在LLMs中的无监督学习

LLMs(Large Language Models)例如GPT和BERT是使用大量文本数据进行训练的,例如书籍、网站和文章。这些模型被训练以执行任务,比如预测下一个词或序列中的掩码词。这使它们能够从数据中学习语言模式、语境关系和事实信息,以建立知识的拼图。

LLMs进行了大量工作,试图理解并预测最接近上下文的单词,然后更新其配置(权重),反复进行此过程,直到达到最佳版本。

让我们看看自监督学习如何应用在两种出色的LLM架构上:GPT(因果语言建模)和BERT(掩码语言建模)。

在GPT中的因果语言建模(CLMin)

GPT模型是使用一种称为因果语言建模的技术来进行训练。在这里的任务是在给定前面的单词的情况下预测序列中的下一个单词。这是一种从左到右的方法,每个标记(单词)仅依赖于它之前的标记。

这里有个示例:

Input: "The cat sat on the"
Target: "mat"

在这种情况下,模型将尝试基于“猫坐在”的上下文来预测“垫”这个词。

在BERT中的蒙面语言建模(MLM)

然而,BERT 使用一种称为掩盖语言建模的不同策略。其想法是随机掩盖输入句子中的一些单词,然后模型被训练去预测原始单词,给定周围的上下文。

示例:

Input: "The chef prepared a delicious [MASK] for dinner"
Target: "meal"

模型将查看周围单词提供的上下文(“厨师准备了一顿美味的”和“晚餐”),并尝试推断被掩盖的单词应该是什么。

在训练过程中,BERT 根据其预测单词与实际屏蔽单词的接近程度调整其内部权重。随着时间的推移,通过看到数以百万计的类似句子,它学会了理解单词的语境含义,从而深刻掌握自然语言。

为什么要进行自我监督学习?

自我监督学习对于扩展模型至关重要。通过使用海量未标记数据,模型可以在不需要昂贵的人工注释的情况下学习。因此,在数据准备过程中节省了大量时间。一些主要优势包括:

  1. 数据丰富:文本数据是无穷无尽的,SSL使模型能够在几乎任何文本语料库上进行训练。
  2. 丰富的语言表示:自监督任务帮助模型捕获丰富的语言表示,可以为特定的下游任务如摘要、问答、翻译等进行微调。

结论

说了这么多,自监督学习已经成为培训大型语言模型的核心技术,使它们能够从未标记的数据中学习,并且在多任务之间进行泛化。 因果语言建模和掩盖语言建模都有各自独特的优势,并且是像GPT和BERT这样的模型的关键组成部分。

如果您喜欢这篇文章,请随意留言!我很想知道您是初次接触自监督学习还是已经有经验了。

一切美好的事物都在前方!

2024-10-16 04:10:57 AI中文站翻译自原文