科技评论：OpenAI o1 / Strawberry — 一种新的博士理性模型

预览

从9.12开始，OpenAI刚刚推出了其最新系列的模型，将人工智能问题解决推至新的高度。欢迎o1系列（又称草莓）-旨在先思考再言语。这些新模型是人工智能世界的智力巨头，能够解决科学、编码和数学中一些最困难的问题。

o1模型使用一种称为强化学习的独特训练过程。这使它们能够进行深思考，就像人类在回答复杂的难题之前会思考一样。这意味着它们有能力解决困难的编程问题，应对数学挑战，甚至在科学领域胜过一些博士级别的专家。

在两

目前有两个版本的o1型号可供选择：

01-预览：通过广泛的一般知识来解决困难问题，设计出完整的模型。限制：每周30条消息。
o1-mini：一个更快、更实惠的版本，在编码和数学等任务上表现出色，而不需要所有那些额外的外部世界知识。限制：每周50条消息。

虽然这些模型是令人印象深刻的问题解决者，但它们并不是用来取代GPT-4o处理所有任务的。如果您需要图像输入、快速响应或功能调用，您应该选择GPT-4o。但如果您的项目需要更深入、更深思熟虑的推理（并且您有耐心等待略慢的响应），o1是一个改变游戏规则的东西。

o1模型目前处于beta测试阶段，功能有限。

它们仍处于测试阶段，意味着它们缺乏一些其他模型可用的功能和特色。目前，o1-preview和o1-mini不支持高级功能，比如：

记忆
定制说明
数据分析
文件上传
网络浏览
愿景和语音功能

如果你需要那些额外的功能，GPT-4o仍然是最好的选择。但当涉及解决困难问题时，o1将成为你的智力搭档。

这是为谁准备的

您正在解决复杂的科学、编码或数学难题吗？如果是的话，o1模型可能是最佳选择。如果您的工作围绕着高风险、高复杂性任务展开，o1会在这里提供帮助。

研究人员可以使用 o1 在生物技术项目中处理数据，物理学家可以为量子实验生成数学公式，开发人员可以轻松构建多步工作流程。

People prefer o1-preview in domains that benefit from better reasoning.

OpenAI声称

OpenAI大规模强化学习算法教会模型如何在高效的数据训练过程中利用其思维链条进行有效地思考。OpenAI发现，通过更多的强化学习（训练时间计算）和更多的思考时间（测试时间计算），o1的性能始终在提高。扩展这种方法的限制与LLM预训练的限制有很大的不同，他们正在继续进行研究。

o1 performance smoothly improves with both train-time and test-time compute

在OpenAI的测试中，下一个模型更新在物理、化学和生物等具有挑战性的基准任务上的表现类似于博士生。他们还发现它在数学和编码方面表现出色。在许多推理密集型基准测试中，o1与人类专家的表现不相上下。最近的前沿模型在MATH2和GSM8K上表现得如此出色，以至于这些基准测试已经无法有效区分模型。

Solid bars show pass@1 accuracy and the shaded region shows the performance of majority vote (consensus) with 64 samples.

o1 improves over GPT-4o on a wide range of benchmarks, including 54/57 MMLU subcategories. Seven are shown for illustration.

他们评估了AIME上的数学表现，这是一项旨在挑战美国最聪明的高中数学学生的考试。在2024年的AIME考试中，GPT-4o平均只解决了12%（1.8/15）的问题。o1通过对每个问题的单个样本平均解决了74%（11.1/15），在64个样本间达成共识后解决率达到83%（12.5/15），当重新对1000个样本进行排名并使用学习的评分函数时，解决率达到了93%（13.9/15）。得分为13.9将其置于全国前500名学生之列，并高于美国数学奥林匹克的通过分数线。他们还在GPQA diamond上评估了o1，这是一个考察化学、物理和生物专业知识的难度很高的智力基准测验。

为了将模型与人类进行比较，他们招募了拥有博士学位的专家来回答GPQA-钻石问题。他们发现o1超越了那些人类专家的表现，成为这个基准测试上首个做到这一点的模型。这些结果并不意味着o1在所有方面都比博士更有能力，只是该模型在解决一些博士应该能解决的问题上更为熟练。在几个其他机器学习基准测试中，o1超过了最先进的技术水平。借助其视觉感知能力，o1在MMMU上得分达到了78.2％，成为与人类专家竞争的第一个模型。它还在57个MMLU子类中的54个子类上表现优于GPT-4o。在放宽提交约束条件的情况下，他们发现模型的性能显著提高。在每个问题允许提交10,000次的情况下，该模型获得了362.14分的成绩，超过了金牌门槛 - 即使没有任何测试时间选择策略。