🚀介绍OpenAI的GPT o1-preview和GPT o1-mini🚀

👋 大家好!我很高兴地宣布OpenAI新模型的发布:GPT o1-preview和GPT o1-mini!这些模型在推理和问题解决能力方面取得了重大突破,以下是它们改变游戏规则的原因:

  • 这些模型在回应之前会花更多时间思考问题,就像一个人会做的那样。
  • 目前,它还没有许多使ChatGPT有用的功能,比如浏览网络获取信息和上传文件和图片,但OpenAI正在为以后的更新而努力。
  • 这些模型用于复杂的推理任务,这就是为什么这是一个重大的进步,并代表了AI能力的一个新水平。鉴于此,OpenAI正在将计数器重置为1,并将该系列命名为OpenAI o1。
  • 由于我不是ChatGPT Plus会员☹️,所以无法使用GPT-o1,但要向马修·伯曼致敬,他展示了GPT-o1可以自行创建俄罗斯方块游戏,目前没有其他模型能够做到!

👫 人类是否仍然偏爱GPT-4o ❓

人类训练师们被展示了来自o1-preview和GPT-4o的匿名回应,并投票选出他们更喜欢的回应。像数据分析、编码和数学这样侧重于推理性的类别,更受到来自GPT o1的回应的欢迎,但有趣的是,那些不需要复杂推理的任务更受GPT 4o的青睐。

比博士🧑‍🎓️和竞争性程序员🧑‍💻️更好?

  • GPT-o1 和 PhDs 都被赋予了解决 GPQA- 钻石问题的能力,而 o1 超越了这些人类专家的表现,在这个基准测试上成为第一个做到这一点的模型。
  • 这些模型在MATH2和GSM8K上的表现如此出色,以至于这些基准已经不再有效地区分模型了!
  • 它的编码能力在竞赛中得到评估,并在Codeforces比赛中排名第89个百分位。

💼 谁应该更经常使用它❓

  • 研究人员:注释细胞测序数据,并生成复杂的数学公式。
  • 开发者:使用增强的推理构建多步工作流程。
  • 科学家:解决各领域复杂问题,如医疗保健和量子物理。

🌳 为什么他们要隐藏思想之链(COT)❓

思维链(CoT)是一种技术,通过将任务分解为一系列逻辑步骤,帮助(LLMs)执行任务。由于某种原因,他们决定不显示原始的CoT,这可能有缺点,但为了了解模型在思考什么,他们展示了思维链的摘要。

🪨坚固和安全🛡️足够吗❓

在OpenAI最困难的越狱测试之一中,GPT-4o的得分为22(0-100的范围),而我们的o1-preview模型得分为84。您可以在系统卡和我们的研究文章中阅读更多信息。

感谢阅读!希望您觉得这篇文章有帮助和见解。如果您喜欢,请不要忘记鼓掌👏并在下面留言!您的反馈对我来说非常重要。

如果您想保持联系并关注更多类似内容,请确保在以下平台关注我:

  • 领英:查看个人资料
  • Twitter/X: 查看个人资料
  • GitHub:查看个人资料
  • Mastodon:查看个人资料
  • 链接树:查看个人资料

随时可以在这些平台上联系我,我会在那里分享有关人工智能、编程等方面的技巧、项目和见解。

让我们一起成长! 😊

2024-09-15 04:17:08 AI中文站翻译自原文