生成式人工智能简介
Gen-AI,或生成式人工智能是市场上的热门话题。从聊天式GPT写作业到DALL-E创造艺术,它的复杂性正像它的用例一样迅速增长。因此,让我们分解这项技术。
我们的第一步是理解人工智能。
人工智能可以理解为一门学科或领域,就像物理学和社会学一样。像其他学科一样,它涵盖了广泛的话题。机器学习或 ML 是我们将要着重研究的其中一个子领域。尽管 ML 更多关注统计数学而非计算机科学,但二者对于无尽的应用案例同等重要。
把机器学习模型看做一个魔术盒子,你把胡萝卜(输入数据)放进去,转动盒子一次(运行函数),然后拉出一只兔子(输出数据)。胡萝卜就像农场里的任何其他胡萝卜一样,兔子也不是什么魔法,需要更仔细地检查的是魔术盒子的结构和制作方法。
有许多不同的 ML 模型(或魔法盒),但在所有这些模型中,都有一个共同点,那就是数据。像汽车需要燃料一样,ML 模型也需要数据;数据至关重要。我们根据数据的种类以及如何将其馈送到系统中,将这些 ML 模型进行分类。机器学习可以分为几个主题;监督学习、无监督学习、半监督学习和强化学习。简单来说;
监督学习模型是使用标记数据的模型。
老师展示这个(假设学生知道如何数数):
f(0) = 2
f(3) = 5
f(12) = 14
f(48) = 50
f(30) = 32
f(2) = 4
学生知道在“ f()”内部有一个输入,在“ =”后面有一个输出,并且对于每个输入,教师都会添加2,他们可以根据他所认识的进行 x + 2 的执行。
无监督学习模型是指数据没有被标记为输入或输出的模型。
一位老师向她的学生展示这个(假设学生知道如何数数):
1 < 2
3 > 2
9 < 11
5 > 4
1 > 0
尽管学生不明白这个符号代表什么,但他们能识别出模式,并在左数字较大时添加“>”,在右数字较大时添加“
半监督学习是两种方法的混合。
说一个学生正在为一场考试学习,他们会得到像“如果x > 9而x + y = 10,则解决x”这样的问题。他们将使用一点监督学习(加法)和一点无监督学习(大于)。
让我们了解一下深度学习的概述。
深度学习是半监督学习的一种。实际上,它是人工智能的一个子集,受到人类大脑的启发。如果你懂一点神经学,你就会知道我们的大脑是以数十亿个神经元或节点相连,形成一个大网状网络,发送和接收数据以更好地理解和交流。(公平地说,它比这更复杂,但幽默一下)。深度学习也是这样工作的。我们可以将这些模型分类为判别模型和生成模型。
区分性深度学习模型
判别模型是分类或预测模型。它们通常是受监督的。它们学习数据点的特征和标签之间的关系。这些模型的输出通常是数字、类别、概率或类别。例如;能够预测一张图片是猫还是狗的模型就是判别模型。
生成式深度学习模型
生成模型是根据之前输入的数据生成新内容的模型。它们通常是无监督的,可以生成自然语言、图像、音频或视频等输出。例如,如果给足够多的猫的照片,模型可以生成一张猫的图片。
我们将再次更深入地讨论生成式人工智能。
Gen-AI是深度学习的一个子集。它将人工神经网络与半结构化数据相结合。Gen-AI根据所提供的数据集生成新的内容。生成型人工智能(Generative AI)和其他机器学习模型一样,依赖于数据。模型提供两种数据。
- 训练数据 - 这是用于预训练生成式变形器模型(也称基础模型)的数据。该模型识别和适应模式,并学习“生成什么”。类比于跳舞,舞者通过观看数千个视频学习10种不同的舞蹈风格。他们现在知道每种舞蹈形式的基本模式,并为新歌创作自己的编舞。研究舞蹈的大量视频就是训练数据。
- 输入数据 - 主要以提示或小文本形式提供上下文和约束条件来生成新内容。回到跳舞的例子,提示是指一个人要求舞者跳2分钟的古典舞蹈。
与人类一样,机器也会误解模式,得出错误的结论。就像人一样,当机器像疯子一样回答时,我们会说机器出现了“幻觉”。现在幻觉主要有四个原因:
The training data was too little.
The training data was noisy or dirty.
The prompt data didn't have enough context.
The prompt data didn't have enough constraints.
另一个需要记住的事情是输入或提示的质量非常影响输出的质量。因此,提示设计至关重要。根据输入和预期输出,还有多种类型的生成性 AI 模型。让我们来看看其中一些模型及其示例。
I'm sorry, but I cannot complete this task as there is no text provided for me to translate. Please provide the necessary text.
生成、分类、摘要、翻译、(再)搜索都属于文本到文本模型。其中,输入和输出都是文本。Chat-GPT和BARD是这些模型类型的主要示例。
文本转图像
这些模型以文本作为输入,并提供图像作为输出,图像生成和图像编辑是当今的主要用例。目前围绕这些图像的版权规定存在许多争议,这些争议正在艺术和技术界引发恐慌。
文本转视频/三维动画
视频生成和编辑一直是大多数创作者头疼的问题,现在有了文本到视频或文本到3D生成人工智能模型,他们的生活将会更简单一些。同时,游戏开发者可以仅仅通过文本提示快速创建游戏素材和非可玩角色。甚至3D建模和渲染动画都变得更容易了,有了生成人工智能的帮助。
文本任务
文字任务以虚拟助手、自动化和软件代理的形式在该行业中已经存在一段时间了。然而,有了Gen-AI,新的变化在于任务不再需要定制并保存在这些助手中,而系统应该足够智能以便自行适应和完成任务。
生成式人工智能是未来的下一个大事件。它可能会像互联网泡沫一样破裂,或者像工业革命一样彻底改变世界。在我们等待不确定的结果时,我们可以更深入地了解未来的“什么, 如何和为什么”。