OpenAI的新o1-preview和o1-mini模型怎么样?
OpenAI发布了2个新模型,OpenAI o1-preview和OpenAI o1-mini。也被称为其“草莓”系列,尽管这个截图可能会说不同。
这些新模型被设计成在回答问题之前更深入地思考,并且比以前更好地处理复杂的问题解决。
在我们深入探讨之前,我们想提醒您,o1和o1-mini仅适用于ChatGPT Plus或团队用户,不适用于免费用户。
现在... 深层推理到底是什么意思?
嗯,这些模型可以完善他们的思维,尝试不同的策略,甚至发现自己的错误。特别是 o1-preview 可以更有效地处理 STEM 领域中的复杂任务,比如科学、编程和数学。
例如,在国际数学奥林匹克比赛(IMO)的资格考试中,GPT-4o正确解决了13%的问题,而o1-preview模型得分为83%。
当我们提出一个高水平的数学问题并且收到答案是通过多个步骤、详细支持的时候,这就很明显了。
甚至不用高级来获得详细回复。
当被问及现实生活中的数学场景时,我们会得到其中的完整思考过程。
即使有趣和愚蠢的问题,比如臭名昭著的“热狗是三明治吗?”这个模型为我们提供了一个结构化的格式。
所以看来o1-preview在说话之前会考虑。
这个模型旨在深入思考并更好地解释思维过程,而不仅仅是为您提供答案。这可以在用户界面中看到,因为它会分享思考问题的时间。
与 ChatGPT 4o 相比,这可能会感觉明显延迟,但是如您所见,回答背后有更多的细节。
这更多的是关于学习。
与ChatGPT 4相比,当要求提供一个简单博客的代码时,o-1预览还会解释代码的含义以及下一步操作。
还实施了新的安全培训。
o1-preview模型已经接受训练,不仅遵循安全准则,而且能够在相关背景中理解并推理。这意味着他们可以更有效地应用安全规则,因为在生成响应时他们会“考虑周到”指南。
这有助于防止“越狱” — 用户试图使人工智能绕过其安全协议的尝试。OpenAI采取了综合的安全措施,包括严格的测试、与安全研究机构的合作以及加强了内部治理。
在o1-preview的同时,OpenAI发布了o1-mini。
这是一个更小、更快速、更具成本效益的模型,专为编码任务而优化。与完整的01-preview模型相比,它便宜了80%,这种代码的减少使得更广泛范围的用户更容易获得先进的人工智能功能。
这非常适合寻求高效人工智能帮助的开发人员、教育工作者和企业,而无需具备广泛的世界知识。
但熟悉的功能也有一些限制。
与以往的型号不同,o1-preview无法浏览网站或允许上传文件。对于o1-mini,每周消息数量限制为50条。然而,Open AI计划在未来实施和改进这些功能。
API 有什么新动态?
开始时,目前模型仅适用于目前API使用第5层的帐户,但很快应该会对所有人开放。
要获得第5级资格,您必须已经支付了1000美元且自第一笔成功付款至OpenAI起已经超过30天。
深入了解定价,这里是一个快速比较:
- GPT-4o — $5.00 / 1百万输入令牌;$15.00 / 1百万输出令牌
- o1-预览 - $15.00 / 1M 输入代币; $60.00 / 1M 输出代币
- GPT-4o 小型 — $0.150 / 1M 输入令牌; $0.600 / 1M 输出令牌
- o1-mini — $3.00 / 1M 输入代币; $12.00 / 1M 输出代币
每分钟每个模型还有一个最初的请求限制,为20个(RPM),不过这个限制可能会发生变化。
目前模型的其他限制包括以下内容:
- 选择:仅限文字,不支持图像。
- 消息类型:仅支持用户和助手消息,不支持系统消息。
- 流媒体:不支持。
- 工具: 不支持工具、功能调用和响应格式参数。
- 对数概率:不支持。
- 其他:temperature,top_p 和 n 固定为 1,而 presence_penalty 和 frequency_penalty 固定为 0。
- 助手和批处理:这些模型不受助手API或批处理API支持。
如果您想进一步测试使用Python的o1模型,可以在这里了解更多信息。
比较响应时间和令牌
相应时间
- GPT-4o — 5 秒
- o1预览 - 20秒
- GPT-4o 迷你版 — 4 秒钟
- o1迷你- 11秒
由于其推理能力,o1 模型生成响应所需时间明显更长。
令牌
- GPT-4o — 401个标记
- o1预览- 2086个标记
- GPT-4o Mini — 415 个标记
- o1-mini — 1791 令牌
那么...这个新模型对我值得吗?
这将取决于您的使用案例。 到目前为止,对o1模型的一大改进是它提供对复杂和简单问题的推理和解释。
如果您正在创建或与STEM学科密切合作,那么尝试在设置中使用o1模型是值得的。如果您需要帮助开发AI系统,我们也可以随时提供支持!
但是我们认为对于您应用中的大多数任务来说,它们还不能证明定价和响应时间的合理性。但是我们很期待看到OpenAI在未来如何改进。