在System 2 LLMs(如OpenAI o1)中使用的推理令牌和技术

什么是系统2模型?

四天前,OpenAI推出了OpenAI o1-preview和OpenAI o1-mini,可以被认为是第一个成功的商业推出的系统2 LLM。人类思维的System 1和System 2类型的概念是由丹尼尔·卡尼曼在2011年的著作《思考,快与慢》中提出的。用一句话来描述,“System 1思维是你直觉的即时反应,而System 2思维是一个经过深思熟虑的过程后的延迟反应”。

许多人自2022年11月OpenAI推出ChatGPT以来,我们一直在使用System 1类型的AI模型。System 1模型直接从给定的提示生成响应。System 2类型的模型利用更加审慎和分析的过程,将复杂的任务分解成较小的步骤。这种能力并不完全等同于人类的推理。然而,它可以模仿到迄今为止无法实现的类似于人类的推理。因此,尽管存在一些夸大的说法,OpenAI o1可能应该被称为第一个“推理”AI模型。

Photo by Vinicius “amnx” Amano on Unsplash

OpenAI的文件提到,他们的新模型正在使用推理令牌作为思维链(CoT)方法的一部分,这将成为一段时间的热门话题。他们还提到,强化学习正在被实施到所谓的“推理/思考过程”中。

这些特定技术他们正在使用并不十分清晰。人们只能猜测表面下可能发生的事情。然而,根据最近的出版物,可以设想如何设计一个基于 System 2 LLM 的系统。

思维链(https://arxiv.org/abs/2201.11903,2022)

思维树 (https://arxiv.org/abs/2305.10601, 2023)

分支-求解-合并(https://arxiv.org/abs/2310.15123,2023年),

系统2的注意力 (https://arxiv.org/abs/2311.11829, 2023)

重新表述和回应 (https://arxiv.org/abs/2311.04205, 2023)

这些新的System 2 LLMs技术正在进行的是规划推理过程并评估不同的情景来解决问题,而不是直接回应提示。

系统2模型,也可以称为“CoT-enabled LLMs”,在需要多步推理的任务中表现出色。这些模型可以使用“推理令牌”来帮助规划策略并生成用户通常看不到的临时输出。OpenAI决定用友好的人类语言(称为思维)来提供他们的系统2过程的一瞥,例如“首先”,“接着”,“让我们测试这个理论”,“有趣”,“等一等”,“嗯”,“这似乎不太可能”,“或者”,“这样就可以了”,“完美”等。

“Show chain of thought” from OpenAI o1-preview

一些英文单词是用人类语言表示的推理令牌,以方便使用。在实际应用中,它们使用系统令牌,这是计算机用来区分它们与正常人类语言令牌的概念。

什么是推理令牌?

推理令牌是专门设计的系统令牌,旨在引导系统逐步进行推理。它们是基于用户的提示而生成,并添加到推理过程中。

有不同类型的推理令牌用于不同的目的。一些研究提出了自我推理令牌,而一些研究提出了规划令牌。系统中的推理令牌通常用单个或双角括号表示,以便说明,如下所示:

Planning token examples in literature (https://arxiv.org/abs/2310.05707)

在每个推理步骤的开始处的上述规划标记作为模型推理过程的指导。还有其他类型的系统标记可能作为推理过程的概念步骤,看起来可能像、、和。系统还可以创建定制的推理标记,以适应特定提示或任务。这使系统能够专注于问题的最相关方面。

这些系统令牌将在最终响应显示给用户之前被删除。但是,即使您无法验证号码,这些系统令牌仍然会被计量,并包含在账单中。

其他技术

决策门

当进程达到一定满意水平(利用决策门判断是否已发生足够的推理),系统将移除所有技术元素和中间输出,以呈现出最终的精炼响应。

强化学习

除了推理令牌之外,OpenAI提到强化学习(RL)被用于思考过程。就像玩象棋或者评估任务的选项一样,有成千上万种场景和假设可以出现在思考过程中。RL可以帮助系统集中精力于最有前途的路径,而不是探索所有可能的场景。RL还可以使系统从错误中学习,并随着时间的推移提高性能。强化学习的一个优势是解决涉及不确定性、部分可观测性和长期规划的任务。这种能力也可以在系统2模型的“推理”过程中派上用场。

根据2023年5月OpenAI发布的《逐步验证》一文,他们报告称使用具有人类反馈的过程监督模型显着提高了数学表现。过程监督模型对思考过程的每个步骤进行评分,而不是像结果监督模型那样对最终结果进行评分。这两种评分模型都是强化学习的一种。OpenAI可能已经为他们的o1模型实施了文中提到的方法。

A screenshot of the interface used to collect feedback for each step in a solution from OpenAI’s publication (https://arxiv.org/abs/2305.20050)

系统2 注意力

如果您是System 2 LLM开发人员,您可能还希望使用System 2注意力,这样系统会更加关注推理过程中的重要步骤,并调整给予不同推理路径的权重。这类似于传统System 1 LLM的注意机制,其中系统关注重要的令牌。

推理令牌的例子

为了方便起见,我已经请教Perplexity AI给我一个推理token的例子。OpenAI的模型似乎被限制在回答有关推理token的问题。

以下是推理令牌的示例,可以用于像解密损坏的文本这样复杂的任务:

  1. : 这个标记可以提示模型分析脚本和写有损文本中使用的文字系统,识别任何不寻常的字符或变体。
  2. : 这个标记可以触发模型考虑文本的历史背景和时代,以指导解码过程。
  3. :此令牌可以指导模型查找损坏文本中可能提供线索的重复模式或结构。
  4. : 此 token 可指示模型将损坏的文本与同一时期或流派的已知完整文本进行比较。
  5. : 这个标记可以促使模型对文本进行语言分析,考虑语法、句法和词汇。
  6. :此标记可指导模型尝试根据上下文和语言知识重建缺失或不可读部分。
  7. :此标记可触发模型与其他历史或语言来源进行交叉参考,以获取额外见解。
  8. :这个标记可以促使模型生成和评估关于文本含义或内容的多个假设。
  9. : 该标记可以指导模型考虑可能影响文本解释的相关文化背景。
  10. :此令牌可以指导模型分析文本中的潜在错误或损坏,并提出更正措施。

这些推理标记可以帮助模型以结构化、逐步的方法来解读复杂损坏的文本。

这是双子座创造的一个复杂情况的推理令牌的另一个例子。

提示:我有一个可以在没有障碍物的情况下覆盖100米的wifi接入点。您将如何在一个形状类似于附件中的图片(包含墙壁、屋顶等)的体育场内安装wifi接入点,在安装时场内没有人但需要模拟满场观众的情况?

推理令牌示例:

理解问题

  • : 了解体育场的物理布局(大小、形状、障碍物等)。
  • :确定体育场内需要Wi-Fi覆盖的特定区域(例如,坐席区、餐饮区、洗手间)。
  • : 考虑体育场内潜在的干扰源(如金属结构、混凝土墙、电气设备)。

规划安装

  • : 根据体育场的布局和覆盖需求确定Wi-Fi接入点的最佳位置。
  • : 评估APs的不同安装选项(例如,墙壁、天花板、杆子)。
  • : 概述连接APs到网络所需的布线基础设施。

模拟一幢大宅

  • : 创建一个假设的流量模式,模拟一个拥挤的体育场(例如,某些区域的设备密集,连接强度不同)。
  • :使用工具或软件生成模拟网络流量,模仿满场观众的情况。
  • :观察网络在模拟条件下的性能,以发现任何瓶颈或改进空间。

得出结论

  • : 评估已安装的接入点是否在模拟满员条件下提供足够的覆盖范围和性能。
  • : 确定是否需要调整或添加额外的AP来优化覆盖范围和性能。
  • : 根据模拟结果为未来的网络维护或升级提供建议。

引用

2024-09-17 04:20:19 AI中文站翻译自原文