介绍OpenAI草莓🍓 o1-preview

OpenAI已经积极开始发布其新系列推理模型,以解决困难和复杂的问题。

现在OpenAI Strawberry 🍓(o1)已经发布了!

OpenAI 的新 o1 模型是什么,它们是如何“思考”的呢?昨天,OpenAI 发布了两个新的预览模型,o1-preview 和 o1-mini,旨在在回答问题之前花更多时间“思考”,声称可以提高其解决复杂任务的推理能力。与旧模型不同,o1 在回答问题之前会暂时停顿来“思考”。那么短暂的时刻就是为了提供周到、准确的答案 — 尤其是在数学、科学和编程等领域的困难问题。在关于有限发布的最初热闹之后,o1 现在已经可用 — 至少部分可用。OpenAI 正在管理用户反馈,并根据实际互动来完善模型。随着其被更广泛接受,预计会有持续改进。该模型不仅仅是生成文本 — 它关乎推理。有了 o1,人工智能正在步入更先进的问题解决角色,在各行各业铺平了创新突破的道路。

🍓测试时间计算是你所需要的全部吗🤣?这个新的OpenAI o1已经到来,据说在物理、生物和化学领域的基准测试中超过了人类博士水平的准确性!

🧠该模型使用了一种“隐藏”的思维链路过程,使其能够以更类似人类的方式思考问题(无论这意味着什么😅)。🕰️结果表明,这种更深层的推理在测试时显着提升了性能,使得在持续处理(10-20秒)过程中能够得到更好的,更准确的结果。⛳ 模型分析任务所花费的时间越长,其结果往往越强大、更精准。

📈 绩效和基准⛳编程:在Codeforces排名高达89百分位,展示出高级的问题解决和编码能力。这不仅仅是生成代码 - 它是像专家一样解决复杂问题。想象一下拥有一位具有实际问题解决能力的人工智能伙伴!⛳数学:在美国数学奥林匹克竞赛中排名前500名,解决了74%的问题,超过了GPT-4o的表现。⛳科学:在物理学、生物学和化学基准测试(GPQA)上超过了博士级别的专家。

💰价格警报:对于开发人员,通过API访问o1将每100万输入代币收费15美元,每100万输出代币收费60美元。为什么这么高?这是专门针对复杂问题解决的 —— 想象它就像支付高级AI智能一样。

🔒“推理输出标记” 在 UI 和 ChatGPT 中对用户隐藏,但会计费(您为看不到的内容付费)

🚫 目前 - 系统不支持提示,流媒体,工具使用,批量调用或图像输入

💰 API访问仅限于高等级帐户(最低消费$1,000)

📊 增加了输出 token 限制(o1-preview 为 32,768,o1-mini 为 65,536),可能是为了优化思考。

OpenAI还推出了o1-mini,这是o1-preview模型的一个更小、更快、更实惠的版本,特别适合编码任务。它便宜了80%,是那些需要强大推理能力的开发者的不错选择,而又能节省开支。

以下是Tom Yeh展示的一个很好的可视化。OpenAI是如何训练草莓🍓(o1)模型花更多时间思考的呢?这仅用于说明,并由Tom猜测这个模型可能是如何训练的。我相信这是以类似的方式完成的。

💡在RLHF+CoT中,CoT令牌也被馈送到奖励模型中,以获得得分以更新LLM以获得更好的对齐,而在传统的RLHF中,只有提示和响应被馈送到奖励模型中来对齐LLM。

💡推论时,模型已学会始终首先生成CoT令牌,这可能需要长达30秒的时间,然后才开始生成最终响应。这就是模型花费更多时间思考的方式!

有其他重要的技术细节缺失,比如奖励模型是如何训练的,人类对“思考过程”偏好是如何引出的...等等。

最后,在免责声明中,这个动画代表了Tom Yeh的最好的猜测。我们目前无法验证准确性。我们希望有人来自OpenAI可以出来纠正这幅图表动画。因为如果他们这样做,我们都将学到一些有用的东西!🙌

参考资料:

  • 学分(Linkedin家庭):范钧,索努·库马尔,菲利普·谢米德,汤姆·叶,艾丝瓦里亚
  • 博客:https://lnkd.in/ezAzb-Fp
  • https://openai.com/index/introducing-openai-o1-preview/ 在这里,我们介绍 OpenAI O1 的预览版本。

2024-09-15 04:13:28 AI中文站翻译自原文