了解大型语言模型(LLMs):AI骨干—第1部分

Artificial Intelligence as a Human

I. 大型语言模型(LLM)简介

如果你曾经想过这些AI机器人是如何和我们完全一样地交谈的,我有好消息和坏消息要告诉你。坏消息是,这些机器人不仅可以像我们一样交谈,现在他们也可以像我们一样思考。好消息是,他们目前还没有考虑过世界统治。 (至少目前还没有)他们可能正忙于弄清楚人类为什么迷恋猫猫的表情包。

在认真的角度来看,大型语言模型,简称为“LLMs”,可以被轻松地看作是我们现在居住的人工智能时代的超级英雄。这些“大型”语言模型,正如其名字所示,执行着各种功能。

这些强大工具可以帮助您进行各种工作,如翻译、文本生成、摘要生成、问题回答、编程、信息提取等等。

但在我们详细讨论LLM的功能和能力以及应用之前,首先最好了解一下LLM是什么。

让我们从头开始,从最简单的问题开始,即 -

什么是LLM?

简而言之,一个大型语言模型(LLM)是一种人工智能模型,经过数万亿的文本数据训练,可以对您提出的任何问题给出类似人类的回答。它们还具有生成、分类、理解和操纵相同信息的能力。这些先前提到的特征是由于对这些模型进行数百次校准的训练而实现的。为了详细说明,这些模型经历了我们称之为无监督学习的过程。

A human studying an AI model

但是等等,我们什么是无监督学习?

在这里,无监督学习是一种机器学习过程,简单地意味着正在使用的AI模型自己学习,使用自学算法,完全没有任何来自人类的明确帮助。根据相似性和差异性的信息,该模型遵循自己的规则来构建和分类数据。("无监督"懂了吗?)

这里的数据是没有标签的,模型也没有接受过任何先前的训练。您可能会感到有必要停下来阅读并问为什么?为什么我们要在没有人类帮助的情况下训练这些模型?

这是因为当我说我们与“数据”合作时,我们显然是在谈论数十亿条无结构、无标签的数据。这种无监督学习的方式有助于

  1. 构建和组织大型数据集
  2. 发现以前未知的模式
  3. 减少对标记数据的需求
  4. 减少复杂性

这些有用的因素是由两件事情成为可能的,这就是无监督学习的核心 -

  • 聚类 - 这里的未标记数据可以根据相似性或差异性进行检查和分组(称为聚类)。
  • 关联——揭示了数据集之间可能被忽视的有趣关系。还记得在Amazon.com上订购东西时看到“经常一起购买”的部分吗?那,朋友,就是一种关联。

简单地说,想象一下一个4岁的男孩第一次进入专为儿童设计的公园。他探索和辨识所有的机械玩具,并记住它们的方式,这就是这一切。

A guy understanding the concepts of LLM

因此,LLMs 从互联网提供的大量数据中学习语言模式,无论是电子书、文章还是网站内容。它能够从数百万短语和单词中无缝地推导出上下文关系,有助于生成高质量的输出。

LLM 在生成式人工智能中的角色 — 这一切在现实生活中是如何结合在一起的?

您可能想知道您以前在哪里听过“生成式人工智能”这个词。不用担心,生成式人工智能只是人工智能的一个子集,与传统的人工智能不同,后者分析现有内容,生成新的原创内容。Perplexity是由开发人员Aravind Srinivas、Denis Yarats、Johnny Ho和Andy Konwinskis于2022年创立的一个很好的例子,当涉及到生成式人工智能工具时。它为用户提供了从帮助内容创作到帮助用户编程的多种结果。有了这么多不同的路径可以选择,可能性是无限的。

因为LLMs可以在各种情境中产生类似人类的文本,并且对语言有深刻的理解,它们在几个领域的生成式AI中起着重要作用。以下是LLM在生成式AI中扮演的一些重要角色,排名不分先后-

  • 文本生成:基于我们提供的提示,LLMs专门设计用于生成连贯且类人的文本。它们擅长产出这些回应的事实在讲故事、内容创作和其他类似应用中起到非常重要的作用。
  • 上下文理解:通过能够解释我们输入的句子中的上下文意义,这些LLM可以提供有意义的输出。因此,它们可以轻松处理复杂的语言相关任务。例如:如果我问聊天机器人“今天班加罗尔的天气如何?”它可能会回答“据报道今天班加罗尔晴朗”。如果我接着问,“明天呢?”AI模型会自动理解我仍在谈论班加罗尔,因此我不需要再次提到它。
  • 跨任务的通用性:LLMs只需进行少许微调就可以适应各种应用,这是一个重要优势,与常规模型不同,后者经常被限制在特定任务上。它们是非常灵活的工具,因为它们可以执行情感分析、翻译和摘要等任务。

这整个LLMs被训练与Gen AI紧密合作的过程,确实是令人震撼而迷人的。感谢上帝有了人工智能呀!

生成式AI中的大规模语言模型(LLM)是如何训练的?

关于大型语言模型相关任务的重要性、功能和灵活性

我希望把一个大型语言模型想象成是你那位愿意听你说任何事情并且给予建议的好朋友。

并且它免费提供所有这些服务,可以说是一种非常有益的体验。 (我们都喜欢技术对吧?)

现在我们已经了解了LLM是什么,以及它与Gen AI的关系,那么让我们看看是什么因素使它如此重要。尤其是在我们的日常生活中。

A brief imagination of how AI thinks
  1. 高级语言理解:由于LLMs接受了如此庞大的数据集训练,它们能够理解人类语言的微妙和复杂性。它们适用于需要深入语言解释的应用程序,因为它们可以理解上下文甚至微小的细微差别,并产生连贯的回应。
  2. 多样化应用:LLM在各种行业中被广泛应用,如翻译、内容生成、基于聊天机器人的客户支持等。由于其多功能性,企业可以在不需要进行重大改变的情况下,将它们用于各种任务中。
  3. 生成AI的基础:正如我们之前所讨论的,LLM是生成AI的核心技术,能够产生独特的材料,如故事、文章和代码。它们生产类似人类的语言的能力彻底改变了全球内容创作的方式。

LLM的最强大之处之一是它们可以适应甚至没有接受过训练的问题和提示。换句话说,它们是灵活的。让我们来看一些简短的指示。

  1. 任务多样性:相较于常规的NLP模型经常为特定任务创建,LLMs能够很容易地在翻译、总结和对话生成等不同角色之间进行转换,只需进行少量微调。在执行特定的语言任务时,这一点至关重要。
  2. 自适应学习:在训练之后,LLMs 可以持续从新数据输入中学习,最终提高他们提供相关信息的能力。这种质量对于保持相关性和准确性在迅速发展的领域中是必要的。
  3. 可伸缩性:大型数据集和更复杂的任务可以轻松处理LLMs。
  4. 多模态功能:许多现代LM在处理多种数据输入格式(文本、照片等)方面表现出色,可以进行更复杂的交互(基本上是混合对话,因为它包括图像和视频。不仅限于文本)。

到目前为止,我们讨论过的一切都展现了LLM进化的成就。但让我们不要忘记一切都有其不足之处。以下是大型语言模型的功能和局限性。

LLMs有助于 -

  • 文本生成:它们非常适合内容制作和讲故事,因为它们可以根据建议生成逻辑性强、与上下文相关的文本。
  • 语言翻译:LLM可以准确地跨多种语言翻译文本,促进国际交流。将冗长的材料压缩为更小的摘要可能有助于更好地理解内容。
  • 回答复杂问题:LLM擅长将多本书的知识结合起来,提供全面的回答。
  • 情感分析:他们能够从文本中确定情感,这对理解消费者意见和行业趋势很有用。(尤其对艺术家很有帮助)
  • 代码生成:使用LLMs从自然语言描述中生成编程代码可以简化软件开发流程。

LLMs的局限性

对于几乎完美的模型,如LLMs,您可能会想到可能的限制是什么。

嗯,我在这里告诉你,有一些合理的缺点。

  1. 没有真正的理解:什么是没有真正的理解?我们现在知道,每个LLM模型都有能力提供一些非常好的回应。但需要注意的是,这些聊天机器人和人工智能模型有时候不理解用户试图传达的意思。例如,如果我问AI模型“生命的意义是什么?”,AI模型更有可能回答“找到幸福和实现是生命的意义”。尽管表达清楚,但这实际上意味着模型不知道幸福和实现是什么。它只是因为训练而用这些词来回应。
  2. 偏见:人工智能模型也可能存在偏见(当然是无意识的),因为它被训练成这样。它可能会指出男性比女性更有可能成为首席执行官,而不知道一些成功的女性企业家的真实成就。
  3. 事实不准确:人工智能模型有时会提供错误数据,因为数据集未经验证。 这里有一个例子让您更好地理解:如果您问一个LLM,“电话的发明者是谁?”一个训练有素的模型可能会正确地识别出亚历山大·格雷厄姆·贝尔。但在某些情况下,特别是在老式或调校不够精细的机器中,反应可能是:“电话是由托马斯·爱迪生发明的。”这是不正确的,因为爱迪生最为人所知的是发明了留声机和改良照明,而不是电话。但为什么会发生这种情况呢?LLM依赖单词序列的概率而不是可验证的事实。如果在训练数据中存在虚假信息或模棱两可,模型的输出可能会反映出这一点。此外,LLM可能会根据上下文提供听起来合理但错误的响应,增加错误的可能性。
  4. 创造性的不准确性:在最近的讲话中,著名的墨西哥电影导演吉尔莫·德尔·托罗表示,他认为人工智能无法取代人类,因为它们无法像人类那样感受,并且在情感上不擅长创作。(这不就是事实吗?)

吉列莫·德尔·托罗谈人工智能-YouTube

为了结束本部分,我们将看到全球人们信任并每天使用的著名LLMs。这些人工智能模型包含数百万数据集,今天每个人都在使用。

(Claude AI的标志)

Claude AI’s Logo
  1. Claude 2: 人类学的克劳德2是一个复杂的语言模型,能够进行各种活动并进行自然对话。它因包含一个广泛的上下文窗口而受到欢迎,可以处理高达100,000个文本标记,具有增强的推理能力,并且明显减少了虚假或误导性信息(幻觉)的产生。克劳德对编程提示有惊人的回应,并且在应用中非常有用。
  2. 数据分析
  3. 内容制作
  4. 客户支持

在人工智能界中,有传言说Claude 2很快可能会取代Open AI的ChatGpt,因为它似乎对用户来说是一个更有能力的模型。

  1. Perplexity AI:因其具有深入了解复杂问题并迅速提供相关答案的能力而闻名,提高了信息检索的效率。
  2. (Perplexity AI’s creative poster at the time of release)

Perplexity AI利用自然语言处理和实时数据访问来改善用户在各种主题上搜索可信信息时的体验。许多在线用户声称Perplexity非常出色,以至于它真正取代了他们桌面上的普通搜索引擎,比如Chrome。(现在这真的很令人信服)。

  1. 大型语言模型元AI,或者LLaMA:

由 Meta(之前是 Facebook)开发,LLaMA 是一个开源的语言模型系列,以其高效和适应性而闻名。它因为提供具有 70 亿到 650 亿参数的模型,使任何人都能获得强大的人工智能工具而受到欢迎。 LLaMA 旨在使人工智能研究和测试变得更容易。它让研究人员和开发人员可以针对特定用途优化模型,同时确保它们在各种自然语言任务上表现良好。因此,LLaMA 中的微调变得非常容易。

羊驼 - 解释!

根据互联网用户的说法,LLaMa的开源功能和定制功能,标志着一个值得关注的人工智能模型。

而现在我们已经完成了此指南对理解大型语言模型的第一部分。请继续关注下一部分!

2024-10-03 04:25:27 AI中文站翻译自原文