新的OpenAI模型o1-preview和o1-mini 🍓

OpenAI 最近发布了宣布的三个模型中的两个新模型:o1-mini 和 o1-preview。这两个新模型看起来非常有前途和技术上有趣。再次证明 OpenAI 在竞争对手面前领先多远。让我们看看有什么新的!

A robot in the style of Auguste Rodin’s “The Thinker.” The futuristic and mechanical form sits in deep contemplation, blending classical sculpture with modern technology.
Generate by DALL-E through ChatGPT — a robot in the style of Auguste Rodin’s “The Thinker.”

简而言之,这些模型能够在回答问题之前需要更多的“思考”时间来处理更复杂的任务。换句话说,他们需要更多的时间来回答问题,但提供更长、更详细的答案。

推理能力

今天,GPT-4o在许多常见用例中仍然是目前最好的选择。这是因为新的模型不具备额外的功能,比如多模态、从互联网检索数据、使用工具(函数调用)或者流式传输。经过测试,它往往倾向于在简单问题的答案中过于复杂,产生幻觉,或者在推理过程中添加奇怪的步骤。

Screenshot showing a “thinking” duration of 35 seconds

LLMs在生成类似人类文本和解决相当简单问题方面非常擅长,这要感谢它们在训练期间看到的大量数据。当我们要求它们解决更复杂的问题或处理需要逐步处理的任务时,它们经常挣扎,并提供错误、部分或不连贯的结果。这是因为它们不具有真正的推理或规划能力,也因为它们实际上既不真正理解语言也不理解其中的逻辑。

为了改善这些更复杂任务的答案,它在推理时间使用了一种技术,称为链式推理。 “推理时间”是LLM实际上做出决定或预测的时刻。 这是AI思维过程的实时部分,与训练阶段相对。 链式推理是一种广泛用于改善复杂任务答案的提示工程方法。 思想是向LLM展示如何将一个大任务分解为更小的任务,或者如何通过逐步推理过程解决复杂问题。

以下是一个被广泛分享的Chain-Of-Through提示的例子 👇

Chain-of-Thought example
Source: https://arxiv.org/pdf/2201.11903

通过使用这种技术,o1在数学、物理、化学、生物和编程方面可以提供更好的结果。他们宣称在推理和解答方面,它与博士生一样优秀,并且他们不得不创建一种新的基准方法。

当 GPT-4o 在数学方面得分为13.4(AIME 2024),在编码方面得分为11.0(codeforces),在博士科学问题方面得分为56.1(GPQA Diamond)时,o1 分别得分为83.3(+69.9),89.0(+78),和78.0(+21.9)!

Source: https://openai.com/index/learning-to-reason-with-llms/

再次强调,这些新模型仍处于预览阶段。如果您是ChatGPT用户,并且需要日常使用,我强烈建议您暂时继续使用GPT-4o。向o1提问一个简单问题可能会导致过于复杂的答案,处理时间可能会非常长(介于5秒到5分钟之间)。o1不像GPT-4o,不应以相同的方式使用。如果您正在通过API将GPT-4o用于您的应用程序,您应该三思而后再考虑是否用o1来替代,因为处理时间可能会破坏您的用户体验。

我在一些思维链的子任务中也遇到了一些奇怪的行为,其中一个澄清任务以“აღწერს*************************************”结尾,或者我还收到了一条“幽默的澄清”说模型不应超出知识截止点。

以下截图显示了您的思考过程。您可以在将o1模型用于ChatGPT时扩展它。请注意,这是思考过程的摘要,而不是真实和详细的过程。如果您想要了解幕后真正发生的详细示例,可以直接查看OpenAI博客(文章末尾的链接)。

Chain-of-Thought: Thought for 20 seconds. Creating a 6x6 nonogram. Crafting the letter Q. Designing letters. Mapping the grid. Deciphering clues. Focusing on clues. Visualizing the grid. Presenting clues. Assessing the grid. Sure! Here’s a 6x6 nonogram puzzle for you where the solved grid forms the letter Q.
Screenshot of o1’s reasoning process

顺便说一下,如果您读过我的先前文章,您可能会发现一些熟悉的东西... 是的,它是一种AI代理!虽然它还不能够独自执行任何操作,比如在互联网上进行搜索以检索数据,但它能够将大任务分解为许多较小的任务,并且能够计划它需要做什么来回答一个复杂的用户查询。

这里真正有趣的是,它向我们展示了OpenAI正在向代理范式转变,这可能是他们的一种策略转变。

其他更新和改进

令牌及定价

如果您不熟悉令牌的概念,简单来说,它是人类文本的计算机表现。人类文本被分解成较小的部分,100个令牌大约代表75个字。

随着o1的出现,新的令牌类型出现了。它被称为“推理令牌”。这些令牌用于考虑生成响应的不同方法。它们在幕后用于上下文,在推理循环中使用,但会在显示给用户的最终答案中被移除。这些令牌被考虑在计费中。它可能会大幅增加账单,因为它使用更多令牌,还因为这些新模型的价格!

GPT-4o vs o1 预览 1M 令牌:

  • $5.00 / $15.00 (3次)
  • $15.00 / $60.00(x4)

GPT-4o迷你 vs o1迷你 1M tokens:

  • $0.150 / $3.00 (x20)
  • $0.600 / $12.00 (x20) ¥0.600 / ¥12.00 (x20)

如果您考虑到一个普通查询可能会消耗至少两倍的代币,我认为这个估计非常低估,如果使用O1,对于同一个任务,账单可能会增加6到8倍! 💸

我并不是说你不应该使用这个模型,因为它的价格,但请注意这一点并考虑使用GPT-4o。如果你有一个实现自动链式的应用程序,将它换成这个模型可能是值得的。当然,如果你在做一个关于数学或物理的聊天机器人,再一次,它可能会很有趣。

上下文窗口

与GPT-4o一样,o1具有128,000个输入令牌的上下文窗口。与先前的模型不同,o1-preview和o1-mini分别具有更多的输出令牌,分别为32,768和65,536个令牌。需要注意的是,这些输出令牌既是推理(不可见)又是可见(显示答案)。如果您通过API使用这些模型,您可以看到每个查询的推理令牌数量。一个更复杂的查询会使用更多的推理令牌,因此总令牌数会更多。

提示

不像以前的模型,不再需要解释一切。OpenAI建议我们直截了当地表达观点。不需要再引导模型。因为它使用了幕后的思维链条,你不应该将这种技术用于你的提示。此外,如果你正在使用RAG框架(检索增强生成),他们建议只向模型提供最相关的信息片段并限制数量。似乎o1会产生过于复杂的答案,可能会迷失并耗费太多时间和令牌来回答。

安全

最后一点,但仍然很重要,OpenAI改进了这些新模型的安全性。他们引入了一种新的安全训练方法,利用模型的推理能力更好地应用安全和对齐准则。例如,它提高了对越狱的抵抗力(一种绕过安全限制的技术,使模型能够生成通常被阻止或禁止的响应)。与GPT-4o的22分相比,O1-preview模型在一项最困难的测试中得到了84分。

另外,他们改进了治理措施,并通过为美国和英国的AI安全研究所提供新模型的早期研究访问来建立合作关系。在每次公开发布之前,他们将进行测试、评估和评价。

结论

虽然o1-mini和o1-preview模型仍处于测试阶段,但它们在人工智能推理能力领域仍然取得了显著进展。由于底层的思维链推理过程,它们在处理数学、物理、化学、生物和编程等复杂任务方面表现出色。然而,请记住,这会导致处理时间和成本上的牺牲,相较于GPT-4o,使它们不太适合日常使用。

让我们看看OpenAI将如何朝着主体范式前进。我认为这些新模型将会变得非常强大,当它们变成多模式并具有获取额外数据进入互联网的可能性时。

感谢阅读。如果您喜欢这篇文章,或者想鼓励我写更多,请随意给我一些👏。

来源

  • https://www.promptingguide.ai/zh-CN/techniques/cot
  • https://arxiv.org/abs/2201.11903

    https://arxiv.org/abs/2201.11903

    这是一个链接到ArXiv文章"2201.11903"的网址。

  • 在此 OpenAI 博客帖子中,我们为您深入探讨了学习使用大型语言模型(LLMs)进行推理的方法。 我们探讨了LLMs在逻辑推理和推理任务中的表现,以及使用其进行推理所需的技术和工具。 请点击以下链接查看更多信息:https://openai.com/index/learning-to-reason-with-llms/
  • https://platform.openai.com/docs/guides/reasoning 请访问:https://platform.openai.com/docs/guides/reasoning

2024-09-20 04:20:43 AI中文站翻译自原文