生成人工智能
生成式人工智能(Generative AI)正在如今非常受欢迎,OpenAI 的 ChatGPT 和 Google 的 Bard 提供了非常简单易用的用户界面,能够在几秒内生成高质量的文本、图片和视频。
通用的
生成型人工智能(Generative AI或 GenAI)自1960年代以来一直被用于聊天机器人。2014年6月,Ian Goodfellow和他的同事们引入了生成对抗网络(GANs),使得GenAI能够生成逼真的真实人物图像和音频。所以Deepfake技术是GenAI的产物。
什么是GenAI?
GenAI的区域
GenAI是一种人工智能技术,正如其名字所示,能够生成各种类型的内容,如文本、图像、音频和合成数据本身。
几乎每个人都会看过下面的图片。
人工智能(AI)是计算机科学的研究领域,旨在开发和研究智能机器。这些智能机器具有能够理性推断、学习和自主行动的系统。
机器学习(ML)是人工智能领域的一个研究分支,主要涉及开发和研究能够高效推广并执行任务(无需明确指令)的统计算法。
深度学习是基于人工神经网络的机器学习方法的一个子集,它使用表示学习。形容词“深度”指的是网络中使用多个层级。所使用的方法可以是有监督的、半监督的或无监督的。
上图显示深度学习是机器学习的一个子集,而机器学习又是人工智能的一个子集。
GenAI是深度学习的一个子集,它使用人工神经网络并且可以使用监督、半监督或无监督方法处理标注和未标注的数据。大型语言模型也是深度学习的一个子集。
生成模型 vs 判别模型
现在,我们创建的机器学习模型可以分为两种类型——判别模型和生成模型。判别模型用于对数据点进行分类或预测标签,其训练是基于带有标记数据点的数据集。通过学习特征和标签之间的关系来进行分类或预测。生成模型可以从数据点的概率分布中学习,可以生成符合学习到的概率分布的新数据点。
让我们以猫的图像为例。一个判别模型可以从标签的概率分布中学习,并预测新图像是狗还是其他。一个生成模型从特征和标签的联合概率分布中学习,并能够生成新的狗的图片。生成模型对数据中的异常值敏感。
因此,辨别模型和生成模型的应用也有很大的不同。辨别模型通常用于文本分类、物体检测等领域。任何输出数字、类别或概率的模型都属于辨别模型。生成模型则用于图像生成、修复以及生成自然语言文本和语音(音频)。
那么什么是生成式人工智能?
GenAI是一种深度学习模型(人工智能),它根据已有数据所学到的知识创建新的内容。学习过程称为训练,并产生一个统计模型(也称为基础模型)。当给定提示(在用户界面中编写的文本)时,将调用该基础模型。基于底层数据的概率分布,GenAI模型通过找到下一个具有最大概率的集合来生成新内容,这就是为什么提示对最终输出非常重要。大型语言模型是一种生成式AI模型,使用模式匹配生成文本。
什么让一个生成性AI模型优秀?
首先,训练数据的数量和变化的多样性都非常重要。在模型的各个层级上深入探索,其力量来源于transformers。Transformers可以一次性处理整个序列,无论是句子、段落还是整篇文章,分析所有的部分而不仅仅是单个单词。这样可以更好地捕捉上下文和模式,并且更准确地进行翻译或生成文本。¹ 即使transformer的概念在1990年就被引入,在2018年的ELMo论文中,整个句子在为句子中的每个单词分配嵌入向量之前进行了处理。利用双向LSTM计算了这样的深度上下文嵌入,改进了从词袋和word2vec的研究线。² 由此,transformers在自然语言处理领域产生了一场革命。
变压器的结构
一个transformer由编码器和解码器组成。有多个编码层来迭代地处理输入层,并且有多个解码层来迭代地处理编码器的输出以及解码器迄今为止的输出令牌。因此,每个编码器的功能是生成上下文化的令牌。解码器有两个子层:(1)跨注意力用于整合编码器的输出(上下文化的输入令牌表示),以及(2)自注意力用于在解码器的输入令牌之间"混合"信息(即,在推理期间迄今为止生成的令牌)。编码器和解码器层都有一个前馈神经网络,用于对输出进行额外的处理,并包含残差连接和层归一化步骤。³
变压器问题
有时候,变压器生成的词语或句子是不合逻辑或语法错误的。这些问题被称为幻觉。幻觉可以使输出文本难以理解或生成错误或误导性的信息。幻觉可能是由以下因素引起的 —
- 训练数据不足
- 嘈杂的数据(预处理没有做好)
- 不足够的上下文给模型
- 模型的约束不够。
因此,要创建一个良好的通用人工智能模型,需要提供大量和多样化的训练数据,预处理过程应确保数据的清洁(请记住,离群值对生成型人工智能模型有不良影响),并且应该为模型提供足够的背景和约束(例如语法规则,在语音输出的情况下还包括发音)。
为了使用GenAI模型,应设计一个包装它的用户界面,可以接受以文本形式称为提示的输入。提示可以用来控制模型的输出。提示设计是创建能够引发语言模型所需响应的提示的过程。编写结构良好的提示是确保语言模型提供准确、高质量响应的重要部分。⁴
GenAI模型的类型
有各种可能的GenAI模型。
- 文本到文本
- 文本转图片
- 文本到视频
- 文本到3D
- 任务的文字
所有这些模型都需要一个用户界面的包装器。
结论
在本文中,讨论了GenAI的所有方面——从历史到领域到实施。
参考资料
¹ 生成AI的存在是由于Transformer技术。
² 变压器的时间线
³ 编码器-解码器架构
⁴ 提示设计