新的Chat GPT更新:o1 vs GPT-4o - 轻松学术。

学术界在使用人工智能方面可能获益最大,但他们也对真实性和可靠性要求最高。到目前为止,即使最好的ChatGPT模型也无法推理复杂的学术思想。这可能会在2024年9月的o1更新中发生变化。在这里,我们比较了这些改进以及学术界如何利用它们。

加入Effortless博客。获取有关记笔记、文献综述、AI工具等主题的免费技巧,专门为学者和学生量身定制。

OpenAI的新o1人工智能是什么?

OpenAI 最新系列的模型被称为 o1,并自 2024 年 9 月 13 日起可供预览。它们利用更长的思维链条来产生更真实的结果,减少幻觉,拥有更好的数学和推理能力。但目前也存在一些缺点。与先前的模型 GPT-4o 相比,新的 o1 模型更慢、更昂贵,且缺乏多媒体功能。

对于研究人员来说,这种新的模型非常有前景,因为它在逻辑方面更好,并且不仅可以帮助处理文本和编码任务,还可以作为一个对话伴侣来交流有关新奇和投机性研究想法的想法。

如何使用新的01版本?

最新版本已发布给大多数高级客户,如果您一直在支付ChatGPT,您可能已经可以访问到它了。要访问新版本,请转到ChatGPT,打开一个新聊天,然后在左上角点击模型名称。选择“o1-preview”。

请记住,目前o1-preview每周只限制为30条消息,而o1-mini则为50条。

什么是o1-preview和o1-mini之间的区别?

OpenAI并没有提供关于这两种模型之间的明显区别的明确信息,除了o1-mini使用起来要便宜80%,这只有在您通过API编程方式访问模型时才会关心,而不是通过正常的聊天界面。o1-mini模型计划免费提供给所有ChatGPT用户。可能的限制将主要是可以同时处理多少信息,这也会强烈影响最终结果。

OpenAI的o1对GPT-4o?

o1-preview是OpenAI o1模型的早期版本,是使用强化学习训练的,用于进行复杂的推理。o1模型可以在回应用户之前产生长的内部思维链,从而在涉及逻辑的用例中实现显著的收益。

目前最先进的GPT-4o模型在三个主要领域表现明显胜出:

数学问题 编码问题 科学问题

在编码是AI的最早和最有影响力的用例之一时,博士级科学问题第一次(据称)达到了人类水平。我们将在文章中用几个例子来探讨这一点。

何时应该使用GPT-4o而不是o1?

根据OpenAI的发布说明,涉及文本理解和创意写作(即较少形式逻辑)的任务最好使用GPT-4o来完成。它不仅速度更快,还可以浏览互联网并生成和分析图像。看一下这个比较(图片来源OpenAI):

在这项比较中,人们被要求判断他们更喜欢哪种回复,是GPT-4还是新的o1模型。当涉及到写作和编辑文本时,这两个模型表现得一样出色。如上所述,涉及更多逻辑的事物,新o1模型的优势就越明显。这正是o1设计的确切用例。开始时,值得尝试两者以找到何时值得使用o1。

请注意,目前对o1-preview模型的使用每周限制在30条消息。这个上限很可能很快会改变。

如何有效使用ChatGPT?

虽然ChatGPT的功能在不断进步,但有一件事情仍然很重要:你和ChatGPT交流的方式。我们可能把ChatGPT想象成一个研究助手或副驾驶,但事实并非如此。它是一个没有关于你和你使用情况背景资料的通用智能,并且在回复中受到奇怪和几乎情绪化的影响。在我的人工智能课程中,你可以学习提示的艺术,如何使用人工智能以及如何为你的学术工作建立助手。根据评论者的说法,这是目前可用的最好的学术AI课程之一。

通过ChatGPT机器人在研究、学习和日常任务方面实现10倍的效率。这门课程将带你从一无所知到在几小时内使用大多数人不知道的最前沿技术。

案例研究: 使用 o1 用于学术研究

考虑到o1使用的当前限制,我只能测试了一些使用情况,但结果仍然非常有前途。在处理学术信息时,o1给出了更长、更深入和更“有思考”的回答,让我能够跟随其思维链并建立自己的知识。

新o1型号提供3倍更详细的回复

在这个例子中,我向模特提了一个相当复杂的问题,你无法在Google上找到答案:

描述生态学中物种分布模型的作用,并向我解释它们是否适用于脆弱性评估。

问题有点模糊,因为“脆弱性评估”可能意味着很多事情。o1 在这里做对的是,首先定义了这个意思,然后分析了物种分布模型的适用性。结果是一个超过3倍长且更加微妙的答案。

请注意比较的细节更多了。在这一部分,我强调了问题的关键部分:适用于漏洞评估的性能。

虽然GPT-4只给了我两句话,o1的回复是一个详细的四条项目清单。

使用Open AI的新01模型来总结研究论文

接着,我复制并粘贴了一篇关于生态模型的干燥而理论性的论文的文字,以比较这两个模型能够给我带来的启示。最初总结的结果几乎完全相同,o1略微结构更好,长度更长。这里没有明显的胜者。

使用01模型进行逻辑推理

上述论文探讨了基于过程和相关性模型之间的区别。前者明确地模拟一个过程(例如,某事物的运作方式),后者模拟输入模式与输出模式的匹配情况 - 它们不关心某事物的运作方式,而只关注结果。机器学习模型几乎总是相关的。我决定向这两种模型提出这个“技巧性问题”。结果大相径庭。虽然两个模型都拒绝直接回答这个问题(由于缺乏信息),但GPT-4o的回答相当简短且不太清晰(143字),而o1向我提供了一些要考虑的要点总结,定义了替代方案,并分析了基于过程的模型的优缺点(759字)。

这个例子展示了新的o1模型是如何思考的。首先它理解问题并将其分解成部分。例如,如果我在寻找一个定义,它会提取出这个定义并写下来。然后,我的问题要求它将其应用到特定的问题上,所以它创建了两个问题并尝试回答它们。在某种程度上,它“大声地思考”,与老的GPT-4o模型相比。

使用OpeanAI的o1-preview进行数学和推理

在OpenAI的这个例子中,模型被要求根据不同组分的酸度来计算溶液的酸度。以下是问题:

两种模型都涉及一连串逐步试图找到答案的思路。以下是只有o1模型答对的答案:

除了正确答案外,引导到正确答案的推理过程比GPT-4o长大约两倍。这展示了o1不仅有解决问题的能力,还可以教导学生自己解决问题。

一些o1 vs GPT-4o比较的更多示例可以在原始发布文章中找到。

结论

OpenAI的新o1模型非常有前途,不仅因为它具有更好的推理能力,还因为它可以看到自己的“思维方式”。这种思维链条的方法本身可能在处理复杂的学术问题或大型代码库时大有帮助。如果你在理论领域工作,你可能会从这个版本中受益最多,它可能刚好跨越了成为真正研究助理的门槛。

2024-09-17 04:12:25 AI中文站翻译自原文