预防沉思：改进OpenAI o1的思维链策略

与我的预测相反，OpenAI的o1 AI模型并没有像ChatGPT在2023年初那样风靡互联网，当时许多人感到恐慌并急于尝试它。这可能部分是因为缺乏友好的解释和较高的成本，部分是因为它并没有展示出比人类专家更显著的性能。这是尽管程序员、数学家、科学家和工程师最终找到了他们一生寻找的个人导师或助手。也许，缺乏激动人心的原因只是因为它的名字不够有趣。

OpenAI o1-preview和OpenAI o1-mini模型是AI模型，在现有的LLM模型（如GPT-4o）之上附加了一个名为Chain of Thought（CoT）的新流程。首先，您可能希望熟悉CoT这个术语。有些人发音为“Co Tee”。它涉及将请求分解为较小步骤，逐个处理它们。就像一个管理各种可以包括传统LLM的AI模型的代理人一样。像CoT这样的代理模型的引入可能导致我们与AI交互方式发生重大变化，减少了对广泛提示工程或多轮对话的需求。

Overview of System 2 Distillation by Meta (https://arxiv.org/abs/2407.06023)

基于CoT的模型有时被称为系统2模型。它们可以提供重要的优势，但也有需要考虑的挑战。

基于CoT的LLM问题

1. 沉思

当前基于CoT的LLMs的主要挑战是沉思，这里提出了一个术语。通过沉思，我是指为了回答一个简单问题而采取过多的额外步骤。这种情况的例子包括经典问题，比如“草莓这个单词中有多少个R？”或“2.3和2.24哪个数字更大？”或是解密混淆的文本。对于人类来说，获取答案不会花费超过几秒钟的时间。对于常规计算而言，字母计数和数字比较只需要几行代码就可以完成。在LLM中使用的transformer中评估过多的选项并不是问题。这是CoT使用的技术的问题。

2. CoT 不能解决变压器的限制。

一项研究（具有思维链的LLM并非因果推理者）提到LLM与CoT结合时的奇怪行为。他们的发现显示，对于有错误的CoT，LLM给出正确答案的频率惊人，而对于正确的CoT，LLM给出错误答案的频率也高。这很可能是LLM中使用的转换器的问题，而不是CoT的问题。换句话说，CoT将无法解决基于转换器的LLM的根本问题。

Correctness of CoT and Answer do not fully align (https://arxiv.org/abs/2402.16048)

3. 培训的高成本

另一项研究讨论了人类培训CoT的金融方面。他们声称CoT的一个缺点是潜在性能提升和开发具有有希望的推理路径示例所需的人力之间的强烈权衡。《无思锁链？对计划中CoT的分析》可以有许多不同类型的推理步骤来完成数百万种不同类型的任务。为数百万种不同任务训练CoT模型可能需要很长时间和很多高素质的人类专家。如果培训无法避免人类反馈，只在特定领域为CoT开发基于AI可能是合理的，以证明成本。

4. 社会偏见

一项研究（《语言模型并不总是说出自己的想法：集思链提供不忠实的解释》）发现，集思链的回应仍然可能具有误导性，特别是涉及社会偏见影响时。他们表示：“我们的研究结果表明，集思链解释可能是合理的但具有误导性，这会增加我们对语言模型的信任，但并不能保证它们的安全性。建立更透明和可解释的系统将要求通过有针对性的努力改进集思链的忠实性，或者放弃集思链而选择另一种方法。”

5. 预料之外的行为

此外，可能会出现由强化学习（RL）管理的CoT会出现意想不到甚至邪恶的情况。一个例子是RL模型在视频游戏中使用不正常的方法击败对手，这是人类通常不会使用的。如果不加以监督，RL模型不会在乎所使用的方法是否有害或不公平。

使用RL 管理CoT的局限性或劣势

OpenAI在其OpenAI o1模型的宣布中提到使用强化学习（可能需要人类反馈）。强化学习可能是目前世界上唯一能够有效防止对如此多情况和选择进行漫长深思的方法。然而，对于管理CoT，使用强化学习存在一些限制。

1. 动态环境的高成本

使用强化学习可能会非常耗时和昂贵，特别是在复杂和动态环境中。

2. 针对罕见情况的次优决策

RL代理可能会遇到数据中没有充分体现的罕见或新颖情况，导致做出次优或冒险的决策。

3. 需要相关任务的额外培训

RL 代理可能无法在没有额外的训练或微调的情况下重用或适应他们的知识和技能到新任务或相关任务。

4. 不透明的过程

可能很难追踪代理人的行动和政策背后的逻辑和推理，或确定错误或失败的来源。此外，如果他们无法解释或证明其行为，与代理人沟通和协作，或提供反馈或指导可能是具有挑战性的。

改进基于CoT的LLM策略，如OpenAI o1

上述现有方法的局限性可能也被其他人观察到了。然而，要想提出改进的策略并不那么容易，就像我在本文标题中所雄心勃勃地表示的那样。以下是我在过去三天中想出的一些想法（不包括对其他主题进行多年的研究）。如果太简短，请原谅，但你不能白白给出这么多。如果你想研究更多选项并制定更全面的计划，可以雇佣我。

1. 优化 CoT 的 RL

奖励函数的设计对引导模型创建有效的推理链至关重要。它应该被精心设计以激励期望的行为。
平衡探索（尝试新方法）与利用（使用已知策略）对于有效学习至关重要。人们可以考虑尝试各种平衡技术，如ε-贪婪策略，上限置信界算法，时间差分学习方法（Q学习，SARSA），贝叶斯方法和深度Q网络。
强化学习可能需要大量数据，因此课程学习或迁移学习等技术可以帮助减少所需的数据量。
设置步骤或执行时间的限制。首先或在推理过程中评估CoT的范围，然后回答：“这将需要很长时间。您是否仍要我继续？”或“您希望我评估不同选项多久？”
停止评估花费很长时间的选项，避免耗时的评估步骤。
询问用户是否希望系统花费更多时间探索各种选项或利用现有方法。
为内部推理过程分配计算资源开发一个公平合理的收费机制，特别是对于长时间会话。

2. 为不同情况实现不同的CoT代理或模型

人类可以根据不同场合调整他们的推理方式，而机器学习模型则遵循预定义的算法。因此，可能需要使用不同的技术或方法来处理CoT的不同类型提示或子过程。

使用不同类型的CoT: 根据用户的状态或提示的目的，您可能希望使用一个通用的CoT代理，一个紧凑的CoT代理，或一个专门用于某种类型任务的CoT代理。
使用小型LLM：有多项研究报告表明，在推理过程之前、期间或之后使用紧凑型LLM的好处。在某些情况下，您可以通过使用小型LLM而非CoT代理来节省资源。使用小型LLM来压缩不断增长的提示也会有所帮助。
不要使用CoT：可能会有一些简单的提示，可以直接由现有的LLMs或其他AI模型处理，例如图像/视频生成。在这种情况下，只需暂时切换模型并将提示或修改后的提示传递给另一个AI模型。
使用常规软件函数：可能会有提示要求进行简单的计算、转换、计数、替换等操作。使用带有正则表达式的传统函数来处理这些。

3. 使用转换工具

在通过 CoT 代理或 LLM 之前，尝试将短语转换为逻辑表达式、JSON 类型表示、SQL 语句或自定义变量/令牌。这种提取和重写非文学概念的方法可能有助于增加推理系统的性能。人们还可以将文本翻译成模型在感兴趣领域接受训练更深或偏见较少的语言。将文本翻译成受到更可靠信息训练的语言可能导致更少偏见的响应。

4. 同时运行多个CoTs或步骤

您可以尝试同时运行多个 CoT 代理或执行不同步骤。系统可以根据任务复杂性动态调整并行进程的数量。您可能能够节省整体处理时间或从不同角度进行多数投票。利用集成技术（如提升或装袋）结合多个代理的输出可能会导致更准确的结果。并行代理可以互相交叉验证彼此的工作，有可能捕捉错误或不一致性。

5. 为代理商开发特定的芯片

为CoT优化设计一款特殊芯片可能会在长远获得回报。这种“推理芯片”可以提高性能，同时也可以提供战略优势。在硬件中嵌入核心功能可以保护您在人工智能开发中的投资，并通过其他公司模仿来创建障碍。

要实现一个“推理芯片”，您可能想要考虑优化电路以进行常见CoT操作（例如，并行处理，特定于推理任务的内存访问模式），并包括专门的内存结构，以有效处理CoT过程中独特的数据流。

在执行推理任务时，与通用芯片相比，特定芯片可以具有显著的性能提升和降低功耗的潜力。然而，开发特殊芯片可能是一项风险投资，特别是如果您没有一个能力强的多学科团队和必要的资源。

6. 更改管理风格

在COVID-19大流行之前，我曾领导两家软件公司长达19年，对科技初创公司的管理方法有一些观察。我认为市场上有许多品牌名称并不特别吸引人或独特。能够 resonating with 更广泛受众的名称和服务可以增加可见性。寻求专家意见而非创始人的不明智决定也许是一个好主意。

在沟通中保持真实性对于建立长期信誉至关重要，尤其是与认真的用户和投资者。与其选择一个立即结果的策略，不如以清晰、事实为基础的陈述为目标，并努力保持客观性。一般情况下不要牵涉情绪，并审查证据。虽然你可以保护辛苦获得的专有信息，尤其是如果可以被用来对付你，但对其他公司持敌对态度是没有好处的。所有竞争都是暂时的。你应该利用所有可以得到的帮助。

在我看來，改變管理風格可以更有效地應對各種挑戰，勝過改變技術策略。

P.S. — 我们也许永远不会拥有AGI，但生活会更好。

尽管OpenAI o1给传统LLMs增加了全新的维度，但上周发布的一些评论对此持怀疑态度。这可能是由于评审人员由于缺乏真实沟通而产生的误解。GPT-3.5就像是一位英语老师，而OpenAI o1更像是一位数学和科学老师。然而，人们抱怨英语老师在数学上表现不佳，数学老师在英语方面也不如英语老师。尽管如此，公众对此的接受可能会随着时间的推移而改变，因为这真正标志着我们一直在等待的新范式的开始。

作为一名分子生物学的前研究生，我不相信我们能用机器击败四十亿年的进化过程。人类在过去的四十亿年中积累了知识和信息，分布在八十亿个个体之间。其中一些信息是冗余的，有些是独一无二的。然而，作为一个整体，人类就像一个巨大的超级生物体，每个个体在自己的技能上都表现出色。在生物学中，这个概念被称为“基因库”。没有一个单独的个体拥有整个人口中所发现的所有基因。大量的遗传变异和无关紧要的基因分布在整个人口中。由几百甚至几千人创造的工具无法希望超越所有人类的集体能力。

那么，我们可能不想过于雄心勃勃地或吹嘘计划去建立所谓的人工通用智能。我认为，企图用全球经济相对有限的能量和金钱来构建一些东西是徒劳的，当与人类在四十亿年间所集中的能量相比。有多少人登上月球？十二个。为什么没有再次发生？我们没有足够的钱。换句话说，创造类似于或优于所有人类总和所需的能量和时间可能被大大低估了。

尽管如此，OpenAI o1是一个重要的里程碑，为极其有用的模型铺平了道路。它将加速科学技术的发展。只是时间的问题，人工智能不仅会模仿人类推理，而且在某些领域做得更好。当这种情况发生时，人工智能将进行研究，做出更好的判断，并让我们摆脱被情绪驱使的不公正情况，我认为这是人类最大的局限所在。欢迎随时查看此帖，因为我可能会在将来做一些调整。

我通常不会写很多公开帖子。我写这篇是为了找工作。可能要安静一段时间，直到再次出现重要事情。欢迎就任何软件项目合作联系我。带着你的问题-没有工作太大，没有工作太小。

参考资料

https://www.microsoft.com/zh-cn/research/publication/llmlingua-compressing-prompts-for-accelerated-inference-of-large-language-models