ChatGPT 架构
最常见的大型语言模型(LLM)是我们所熟知和使用的ChatGPT。还有其他一些,例如由Google开发的Bard。让我们深入了解ChatGPT的架构。
对我来说,ChatGPT 最常见的用途是用更简单的方式解释一个段落。生成的解释非常清晰,有助于理解概念。难道我们不应该了解著名 LLM 的架构?
关于
ChatGPT代表Chat生成前训练的Transformer。它基于自然语言处理(NLP)技术。

GPT是基于语言模型和变形器神经网络构建的,而ChatGPT则是在GPT基础上加入了增强学习技术。
语言模型
语言模型用于理解和生成类似人类的回答。
给定一句话,计算下一个词的概率。一些著名的例子包括谷歌助手,Alexa,Cortana和Siri。
转移神经网络
这是一个序列到序列的架构。它由编码器和解码器组成。在翻译方面,序列是由单词组成的。

例子
X0 — 我
X1 — 上午
X2 — 科思娜
X3 — 萨蒂什
我们将把它翻译成德语。
Y0 — 我
Y1-垃圾篓
Y2 — 科蕾塔娜
Y3 — 萨蒂什
Chinese (Simplified): 我是Keerthana Sathish
德国: 我是Keerthana Sathish
如果解码器叠加在一起,我们得到了生成式预训练转换器(GPT)。
强化学习
再增强学习是通过错误学习。我们需要一个代理,环境,并通过反馈循环连接。

在马里奥游戏中,动作是移动角色的按钮,状态环境就是游戏。状态是指马里奥和游戏世界在任何给定时间可以处于的各种条件或模式。
代理具有一系列的行动。因此,随着时间的推移,更新后的状态将在每个游戏帧中产生,并且我们的奖励信号将是分数的变化。

实施

参考资料
[1] 代码集市,ChatGPT — 详解!,https://www.youtube.com/watch?v=NpmnWgQgcsA