自然语言处理快速回顾

ChatGPT中文站
Photo by Eugene Zhyvchik on Unsplash

我想分享一下我们在自然语言处理领域所见到的根本性进化的简短观点。自从word2vec发布以来,我一直在研究自然语言处理问题。可以看到模型、问题和应用程序的进化速度是非常惊人的。

大约十年前,word2vec 很受欢迎,RNN和LSTM成为构建更好系统的新型架构。这些模型在理解单词顺序、捕捉上下文和生成顺序输出方面都取得了重大进展。我在2018年在微软时参与了一项早期的对话式AI项目Marcel。我们使用了这些技术,花费了无数小时构建非常精确的前处理程序和实体提取器,结果仍然相当严格,尽管团队力量惊人,付出巨大。回顾当时情形,我们其实略领先于时代的潮流。

2018年Google引入BERT时,我无法强调它对NLP社区有多么重大的影响。Transformer通过高效地捕捉句子中远离的单词之间的关系,改进了RNNs和LSTMs。这种理解长距离依赖关系的能力有助于Transformer更好地理解单词的上下文,并在自然语言处理任务中实现更高的性能。它具有1.1亿个参数,这在当时是一个令人震惊的高参数数目,重新定义了大多数NLP基准的标准,并成为衡量后续模型的关键基准。

ChatGPT中文站
Photo by Kapa64 on PixelBay

跟随BERT,出现了几个基于BERT基本架构的模型。其中包括RoBERTa和DeBERTa这样的变种,每种都提供独特的优化和能力。我写这篇文章时,仅在上个月,HuggingFace上的bert-base-uncased模型已被下载超过5300万次!换句话说,这是一个相当重要的事情。

跟BERT的卓越表现同时进行着的,是另一个悄悄崛起的有着变革性的模型——GPT-1,由OpenAI发布。它有1.2亿个参数,并且是用Common Crawl和BookCorpus数据集进行训练的(这也是用于训练BERT的数据集)。有了GPT-1,您可以给出一个提示词,然后生成一些有趣的类人文本。但是也有一些限制,比如难以在训练数据之外生成文本并且似乎会重复。随着GPT-2发布,它拥有15亿个参数,然后GPT-3在2020年出现了,有着惊人的1,750亿个参数!!每个版本的GPT都比上一个版本更加先进,而GPT-3可以处理推理并且听起来很像人类。

当时,自然语言处理(NLP)社区肯定开始感受到这些不同进步的兴奋。仅仅几年时间,我们从费时数月仔细预处理话语,用于输入到word2vec,到探索如何有效地微调这些大型模型,以达到不同水平的自然语言理解和生成。

ChatGPT中文站
Photo by Pietro Mattia on Unsplash

现在2023年,我们已经坐上了LLM热潮的列车。ChatGPT并非一种新颖的架构,但它展示了NLP社区在过去至少10年中已经取得的令人难以置信的研究和进展成果。由于它简单的聊天界面,人们可以随意提问并获得逼真、类似人类的答案。由于ChatGPT引起了轩然大波,谷歌、微软和Facebook正在争相推出更大、更好、更强大的LLM。同时,OpenAI正在围绕ChatGPT构建工具(例如插件),已经发布了拥有1万亿参数的GPT4,并引领着将这些NLP创新带进流行文化的浪潮。

2023-10-20 16:42:38 AI中文站翻译自原文