OpenAI o1 LLM 模型使用的 Chain of Thought 的 5 个局限性

三天前,OpenAI再次确认其作为LLM行业“领先者”的地位,当它推出OpenAI o1预览和o1迷你模型时。 o1模型使用一种称为“Chain of Thought”(CoT)的技术,该技术用于补充基于Transformer的语言模型的局限性。

简而言之,“CoT通过将问题分解为更小的步骤来回答复杂的问题”。这种方法将在未来几个月内成为所有其他LLM开发者的标准。CoT并不是任何人的专属财产,OpenAI与其他公司之间的差距可能只有几个月,甚至不到一年。

有一篇关于思维树(ToT)的文章于2023年5月发表,讨论了现有CoT方法的局限性。ToT框架展示了层次推理和结构化探索的潜力。根据作者的描述,“ToT允许LMs通过考虑多条不同的推理路径和自我评估选择来进行刻意的决策,以决定下一步的行动,以及在必要时展望或回溯以做出全局选择。”

我已经看到了尝试不同路径、决定下一步行动以及在OpenAI o1模型“思考”过程中的回溯过程。OpenAI o1模型可能是在本论文中报道的思想拓展的结果。

Photo by Simon Wilkes on Unsplash

o1给世界带来的是用户现在将从公共信息中得到问题的最佳解决方案,而不是过去21个月我们一直在得到的问题的平均解决方案。

在未来我们可能想要拥有的是一种以逻辑步骤而非半随机或最有可能的重组方式,从而得出之前没有人考虑或发现的解决方案。这需要真正类似人类的推理。目前世界上没有任何东西能够进行真正类似人类的推理,包括利用CoT的OpenAI的o1模型。

这是我个人认为当前CoT状态的好处和限制。

好处(利)

  1. CoT将解决之前基于变压器的LLM存在的许多问题,比如无法解决简单的数学问题和幻觉。
  2. CoT将会变得很棒,特别是在数学和科学领域,大多数人都会得出相同的结论。
  3. 在类似的方式中,CoT 在分类等任务中会非常有用,大多数人会得出类似的结论。
  4. CoT可以帮助推动前沿知识,特别是在科学和工程领域。

限制(缺点)

  1. OpenAI 目前的政策是运行没有安全性和对齐性的 CoT,可能会导致不良后果。
  2. CoT 不会在没有明确答案的任务中取得突破,比如重写和总结,不同的人可能会以不同的方式产生结果。
  3. 对于某些任务,例如战略规划和政策制定,CoT可能需要几天甚至几周的时间来完成一个非常聪明的人可以在一天内完成的相同任务。
  4. 当前的认知水平可能会过于思考,仍然会做出一些错误的判断。
  5. 当前水平的CoT成本约为Claude 3.5 Sonnet,Llama 3.1,Mistral Large 2和Gemini 1.5 Pro的6倍。

CoT在某些任务上可能比人类花更长时间,例如那些不涉及长文本的任务,从所谓的“推理”中浪费时间。当前LLM模型的一个例子是在9.8和9.11之间哪个浮点数更大。许多传统的LLM模型无法正确回答,而这些新的CoT模型可以回答正确,但需要几秒钟的时间。而人类只需要花费几分之一秒。

CoT 可能比人类花费更长时间来评估需要考虑太多潜在场景的任务。 我们可能将这种当前阶段的限制称为“沉思”或“反刍”。

参考: https://arxiv.org/abs/2305.10601,https://www.youtube.com/watch?v=IIT3GaK4D_M

2024-09-16 04:13:00 AI中文站翻译自原文