介绍OpenAI草莓🍓 o1-preview

OpenAI已经积极开始发布其新系列推理模型，以解决困难和复杂的问题。

现在OpenAI Strawberry 🍓（o1）已经发布了！

OpenAI 的新 o1 模型是什么，它们是如何“思考”的呢？昨天，OpenAI 发布了两个新的预览模型，o1-preview 和 o1-mini，旨在在回答问题之前花更多时间“思考”，声称可以提高其解决复杂任务的推理能力。与旧模型不同，o1 在回答问题之前会暂时停顿来“思考”。那么短暂的时刻就是为了提供周到、准确的答案 — 尤其是在数学、科学和编程等领域的困难问题。在关于有限发布的最初热闹之后，o1 现在已经可用 — 至少部分可用。OpenAI 正在管理用户反馈，并根据实际互动来完善模型。随着其被更广泛接受，预计会有持续改进。该模型不仅仅是生成文本 — 它关乎推理。有了 o1，人工智能正在步入更先进的问题解决角色，在各行各业铺平了创新突破的道路。

🍓测试时间计算是你所需要的全部吗🤣？这个新的OpenAI o1已经到来，据说在物理、生物和化学领域的基准测试中超过了人类博士水平的准确性！

🧠该模型使用了一种“隐藏”的思维链路过程，使其能够以更类似人类的方式思考问题（无论这意味着什么😅）。🕰️结果表明，这种更深层的推理在测试时显着提升了性能，使得在持续处理（10-20秒）过程中能够得到更好的，更准确的结果。⛳ 模型分析任务所花费的时间越长，其结果往往越强大、更精准。

📈 绩效和基准⛳编程：在Codeforces排名高达89百分位，展示出高级的问题解决和编码能力。这不仅仅是生成代码 - 它是像专家一样解决复杂问题。想象一下拥有一位具有实际问题解决能力的人工智能伙伴！⛳数学：在美国数学奥林匹克竞赛中排名前500名，解决了74%的问题，超过了GPT-4o的表现。⛳科学：在物理学、生物学和化学基准测试（GPQA）上超过了博士级别的专家。

💰价格警报：对于开发人员，通过API访问o1将每100万输入代币收费15美元，每100万输出代币收费60美元。为什么这么高？这是专门针对复杂问题解决的 —— 想象它就像支付高级AI智能一样。

🔒“推理输出标记” 在 UI 和 ChatGPT 中对用户隐藏，但会计费（您为看不到的内容付费）

🚫 目前 - 系统不支持提示，流媒体，工具使用，批量调用或图像输入

💰 API访问仅限于高等级帐户（最低消费$1,000）

📊 增加了输出 token 限制（o1-preview 为 32,768，o1-mini 为 65,536），可能是为了优化思考。

OpenAI还推出了o1-mini，这是o1-preview模型的一个更小、更快、更实惠的版本，特别适合编码任务。它便宜了80%，是那些需要强大推理能力的开发者的不错选择，而又能节省开支。

以下是Tom Yeh展示的一个很好的可视化。OpenAI是如何训练草莓🍓（o1）模型花更多时间思考的呢？这仅用于说明，并由Tom猜测这个模型可能是如何训练的。我相信这是以类似的方式完成的。

💡在RLHF+CoT中，CoT令牌也被馈送到奖励模型中，以获得得分以更新LLM以获得更好的对齐，而在传统的RLHF中，只有提示和响应被馈送到奖励模型中来对齐LLM。

💡推论时，模型已学会始终首先生成CoT令牌，这可能需要长达30秒的时间，然后才开始生成最终响应。这就是模型花费更多时间思考的方式！

有其他重要的技术细节缺失，比如奖励模型是如何训练的，人类对“思考过程”偏好是如何引出的...等等。

最后，在免责声明中，这个动画代表了Tom Yeh的最好的猜测。我们目前无法验证准确性。我们希望有人来自OpenAI可以出来纠正这幅图表动画。因为如果他们这样做，我们都将学到一些有用的东西！🙌

参考资料:

学分（Linkedin家庭）：范钧，索努·库马尔，菲利普·谢米德，汤姆·叶，艾丝瓦里亚
博客：https://lnkd.in/ezAzb-Fp
https://openai.com/index/introducing-openai-o1-preview/ 在这里，我们介绍 OpenAI O1 的预览版本。