OpenAI的“草莓”来了,这个让人深思。。

“The Thinker” Photo by VISIT PHILADELPHIA

人工智能已经改变了各行各业,并彻底改变了我们与世界互动的方式。但人工智能演变中最令人兴奋的部分刚刚开始。OpenAI的最新进展,“草莓”模型(也被称为o1),不仅是技术上的成就,更是一个窗口,展示了人工智能将如何增强人类能力的未来,这是我们曾经认为不可能的。虽然目前的人工智能模型如雙子座和克勞德在复杂推理方面存在限制,但o1模型旨在突破这些边界,解决需要原始计算能力和类似人类直觉的混合问题。

那么,为什么有人要在意呢?因为o1模型代表了一个巨大的转变。它不是要取代人类智慧,而是要补充它——为创新打开大门,可以转变行业,增强问题解决能力,推动突破。你可能听过这样一句话:“人工智能不会拿走你的工作,使用人工智能的人才会拿走你的工作。”经济学家理查德·鲍德温说过这句话,它代表着利用这项技术的企业将具有竞争优势,找到新的高效率,创造以前难以实现的创新。这不仅仅是关于技术——它是关于利用人工智能的潜力来塑造未来的工作、创造力和人类思维。

随着人工智能的不断发展,有一点变得很清楚:我们正处在一个新时代的边缘。有了合适的工具,可能性是无限的。

未来属于那些在事情变得明显之前看到可能性的人。- 约翰·斯卡利。

在o1之前,人工智能很难解决复杂的难题,处理高级数学方程式,或者接近日常任务所需的人类自然思维水平。 o1使用一种复杂的思维链,使其超越任何其他人工智能模型。我们将在稍后深入探讨这个过程。

O1当前的状态

o1模型在需要深入推理的任务中表现出色,特别是在STEM领域。它们采用一种思维链式方法,模仿人类解决问题的过程。想看一些数字吗?当然:

  • 在Codeforces(竞技编程平台)上排名前89%
  • 美国数学奥林匹克资格考试83%的准确率(GPT-4o仅达到微不足道的13%)

将这与GPT-4o在AIME上13%的准确率进行比较,AIME是一个挑战性的高级问题解决能力测试,它们之间的差距就变得清晰了。这代表着生成式人工智能迈向了一个重要的里程碑,突显了它在解决复杂问题方面的能力正在提升。然而,o1主要擅长解决复杂的难题和问题;它缺乏使GPT-4o如此令人印象深刻的速度和多模态能力。OpenAI指出,“GPT-4o仍然是大多数提示的最佳选择”,并指出o1在简单任务上很吃力。这有点讽刺 —— 过于深思熟虑以至于在基本任务上出现失误。然而,这只是将会发展成为杰出技术的一个预览。我们正在目睹人工智能越来越接近类似人类的问题解决能力,对技术来说是一个令人兴奋的时刻。

o1的工作原理:面向所有人的深入探究

因此,o1是如何取得这些令人印象深刻的结果的呢? 让我们以一种易于理解的方式来分析,即使您对人工智能概念还是新手。

理解AI模型及其架构

首先,让我们谈谈什么是AI模型。将其视为一种复杂的计算机程序,旨在执行通常需要人类智慧的任务 - 如理解语言,识别图像或解决问题。

一个AI模型的架构指的是该程序的设计和结构 - 它是如何构建的,其组件如何相互作用,以及如何处理信息的。这类似于房屋的蓝图;它决定了所有元素如何相互配合。

变压器结构

现在,变压器架构是许多先进人工智能模型中使用的特定蓝图,包括OpenAI的GPT系列和o1。2017年由谷歌的研究人员引入,变压器在人工智能领域引起了革命,特别是在自然语言处理方面。

以下是一个简化的解释:

  • 传统模型:在变压器出现之前,人工智能模型按顺序处理语言数据,逐字逐句进行处理,这种方法速度慢,对长句子处理困难。
  • 变形金刚:它们使用一种叫做自注意力的机制同时处理句子中的所有词。这使得模型能够理解每个词与所有其他词的上下文关系,更有效地捕捉变化和含义。

想象一下阅读一句话时能够一次考虑每个词,理解每个词之间的关系。这就是变压器使AI模型能够做到的。

思维链推理

思维链推理是一种方法,其中人工智能将复杂问题分解成小而可管理的步骤,就像一个人可能逐步解决困难的数学问题一样。

以下是它的工作原理:

  1. 问题分解:AI能够识别问题的不同部分。
  2. 顺序处理:一次解决一个部分,确保每个步骤都是正确的才继续。
  3. 集成:它将各个部分的解决方案组合在一起,得出最终答案。

这种方法使o1能够处理需要多步推理的复杂任务,这是大多数人工智能模型难以应对的。我们很快会进行比较。

从人类反馈中学习强化学习(RLHF)

在o1中的一个关键创新是利用人类反馈的强化学习。让我们来解释一下:

  • 强化学习(RL): 这是一种机器学习类型,其中人工智能通过与环境互动并根据其动作获得奖励或处罚来学习。这类似于狗学习技巧的方式 — 当它做对了某事时你会奖励它。
  • 人类反馈:在o1的情况下,人类通过评估人工智能的回应来提供奖励或惩罚。

这就是它的全部结构:

最初的训练:o1首先在包含来自互联网、书籍和其他来源的文本的大型数据集上接受训练。 这使其对语言和事实有一个基本的理解。

互动学习:

  • 提示:AI被给予一个问题要解决。
  • 生成响应:它提供了一个答案,以及获得该答案的推理步骤。
  • 人类评估:人类评审员评估答案和推理。他们提供关于准确性、清晰度和与人类逻辑一致性的反馈。

借鉴反馈学习

  • AI根据反馈调整其方法,加强带来正确答案的策略,并惩罚那些不正确的策略。

迭代:

  • 这个过程被重复了成千上万次,让o1不断完善其解决问题的能力。

为什么这很重要:

  • 与人类思维对齐:通过从人类反馈中学习,o1 开发出一种推理模式,这种模式与我们思考的方式非常相似。
  • 提高准确性:人工智能在提供正确答案并解释答案来源方面变得更加优秀。
  • 透明度:我们可以理解和信任人工智能的推理,因为它清晰地展示了它的思考过程。

那么o1的缺点在哪里呢?OpenAI还没有完全处理像生物每天面对的那种复杂问题,这些问题比复杂的多项式更难。标记是单词的一部分,在LLM中处理,一个限制因素是最先进的公开可访问的LLM在其上下文窗口中最多可以处理200万令牌,远远少于我们一生中遇到的信息量。然而,他们正在积极努力扩大这个上下文窗口到1000万个令牌。这种扩展可以使AI模型处理和回忆大量数据,使它们更接近人类的理解。

可视化示例:解决一个简单问题

让我们通过一个简单的例子来比较o1如何应用这些概念。

任何了解人工智能基础知识的人都知道,大型语言模型(LLMs)被训练来预测文本序列中的下一个单词。当o1似乎在推理时,实际上它正在识别它在训练过程中学到的文本模式。

例如,如果提示包含字符串“12+18=”,模型很可能会根据训练过程中学到的模式预测下一个标记为“30”。LLM并没有深入理解数字,它只是简单地将“12”、“18”和“30”视为标记,就像对待“狗”或“每个”这样的单词一样。

现在想象一下,一个LLM被给定了序列“2+5+4+5-7+10-2=”。由于这个特定序列很可能不是它的训练数据的一部分,模型不会立即知道正确答案。然而,如果我们提示它“逐步思考”,它可能会生成类似以下的输出:

开始添加前两个数字:2+5=7。

加下一个数字:7+4=11

加上下一个数字:11+5=16

减去下一个数字:16-7=9

加上下一个数字:9 + 10 = 19.

减去最后一个数字:19-2=17

虽然“2+5+4+5-7+10-2=”不在训练数据中,但诸如“2+5=7”或“7+4=11”之类的字符串可能在训练数据中。因此,通过将一个大数学方程分解,LLM能够得到正确的答案。然而,只有在模型的训练数据中包含了大量实例,其中一个大数学问题被分解为较小的部分来解决时,这才是可行的。

这里发生了什么:

  • Chain-of-Thought: o1 将问题分解为步骤,使得跟进和验证更容易。
  • 强化学习:通过先前的训练和反馈,o1知道展示自己的工作是有价值的,这有助于理解和建立信任。

这是o1背后的核心概念。尽管思维链不是一个新概念,但在2022年关于这个主题的知名论文之后,它在机器学习社区中受到了重要关注。如今,大多数模型被训练为自动以这种方式分解复杂问题。然而,OpenAI以两种关键方式改进了这一技术,使其显著更加有效。

一个改进是生成了大量的训练数据,展示了模型如何进行更复杂、更延续的思维推理链。虽然这不是OpenAI所独有的 - 大多数主要的AI实验室都致力于提高训练数据的质量和数量 - 但OpenAI似乎比竞争对手做得更全面。

然而,真正的突破在于一种新的训练过程,使o1能够更有效地从这些长篇链式思维示例中学习,显著增强其推理能力。

深入探讨技术

现在我们已经看到并了解了o1在实践中是如何工作的,让我们更详细地探讨其中的基础技术。

自我注意机制

在Transformer架构中,自注意力机制允许模型权衡句子中不同单词相对于其他单词的重要性。

  • 在“猫坐在垫子上”这句话中,“猫”这个词与“坐”和“垫子”密切相关。该模型将更高的重要性分配给这些联系,帮助它更好地理解上下文。

此机制使o1能够更有效地处理信息,尤其是在复杂的句子或问题中。

动态记忆和元认知

o1包含类似工作记忆的组件,使其能够存储和操作中间结果。

  • 动态内存:这是o1追踪正在处理的信息的地方,类似于我们在解决问题时记下笔记的方式。
  • 元认知:o1 可以反思自己的推理过程,检查错误或不一致之处,并根据需要进行调整。

扩展上下文窗口

  • 上下文窗口:这指的是AI一次可以考虑的信息量。
  • o1的优势:它可以处理更长的上下文窗口,这意味着它可以处理和记住更多的信息,这对于解决复杂问题至关重要。

如何o1与之前的型号有所不同

就性能而言,o1模型几乎可以做任何事情 — 回答问题、总结内容和生成新的材料。然而,重要的是要注意这是一个预览模型 — 你不能像GPT-4o那样上传附件(图片、链接、视频等)。

建筑创新:

  • 自反性关注机制:使模型能够在呈现输出之前检查并调整自己的结果,类似于人类检查他们的工作。
  • 动态内存模块:提供一个工作内存空间,用于存储和处理中间计算和推理步骤。
  • 元学习能力:使模型能够根据问题领域调整推理策略,随着时间的推移提高效率和准确性。

与以往的型号相比:

  • GPT-4:擅长一般语言任务和多模输入,但不深入研究多步推理。
  • 克洛德(人类学):注重帮助和无害,但没有o1的高级问题解决能力。
  • LLaMA (Meta):旨在使人们更容易获得LLM知识,但缺乏o1的专业推理模块。

这种思维链条推理和强化学习的结合使o1特别适用于STEM领域,深入推理至关重要。例如,o1可以处理量子物理问题,分解复杂编码任务,以及解决复杂数学证明,具有大多数其他模型无法复制的逐步推理水平。

业务影响

任何使用过任何人工智能模型的人都知道它可以几乎提供任何帮助。他们使用它来协助他们制作报告并提供反馈。所以你可能会问自己我也问过的同样问题:o1如何改变并很可能改进这一切?我们如何将o1应用到不断发展的商业世界中?借助o1提供的关键概念,有很多可能性,尤其是随着人工智能继续超越我们的期望。

真实世界应用案例

根据最近的案例研究,o1模型在识别市场模式和进行交易方面起到了关键作用,以前所未有的准确性执行交易,明显优于传统算法。这不仅表明了o1在处理复杂金融模型方面的能力,还突显出其潜力,可以革新依赖数据驱动决策的行业。

主要商业收益:

  1. 增强的数据分析:该模型将复杂任务和数据集分解为无数步骤的能力使其在获取高质量信息方面非常有价值。企业可以利用此功能进行咨询、做出明智决策,并识别以前被数据复杂性遮蔽的趋势。
  2. 重复任务的自动化:从创建复杂报告到生成代码,o1可以处理更复杂的任务,使企业能够扩大运营并解决更大范围的问题,而不需要相应增加资源。
  3. 改进决策:由于将所有事情分解的过程,人工智能提供了改进的决策能力。这让人们能够提供更具策略性的决策,使企业能够以更大的灵活性和远见地解决问题。

总的来说,通过利用人工智能生成和执行成千上万的推理步骤,公司可以释放出新的创造力、效率和战略远见的水平。随着这项技术的不断发展,它无疑将成为数字时代业务战略的基石。

拥抱人工智能的未来

OpenAI的o1模型是人工智能领域的一个重大进步。它不仅仅是又一个技术成果——它展示了人工智能与我们合作的未来,这是我们曾经认为不可能的。与之前的模型不同,o1可以逐步思考解决非常困难的问题,就像我们人类一样。这并不是取代人类智慧,而是补充它,为各种领域的创新和问题解决打开了新的机会。

当我们站在这个新时代的边缘时,很明显o1提供了可以使我们更高效、更有创造力和更具战略性的工具。接受这项技术的企业将拥有竞争优势,有趣的是 — 此时我要回顾一下我在文章开头引用的两句话,就像Richard Baldwin所说的那样:“人工智能不会夺走你的工作,使用人工智能的人会夺走你的工作。”并且回应前苹果CEO约翰·斯卡利的话:“未来属于那些在显而易见之前看到可能性的人。”有了o1,这些可能性变得清晰起来。我们需要抓住这些机会。

简而言之,o1不仅仅是关于推进技术 - 它是关于释放我们自己的潜力,看看当我们与人工智能共同合作时我们能走多远。未来已经到来,有了像o1这样的工具,我们能够取得的成就是没有限制的。

关于我:嗨👋!我叫诺亚·巴巴罗斯,是一名对技术、创业以及人工智能的变革力量深感热爱的高中生。我相信人工智能结合创业精神、创造力和创新过程可以解决人类面临的最具挑战性的问题,并产生持久影响。我一直在探索这些技术如何改善日常生活,从小事情到更大的社会挑战。如果您有兴趣建立联系或合作,请随时通过电子邮件noah@barbaros.ca与我取得联系,或在LinkedIn上关注我。感谢您阅读 - 我真诚希望这篇文章为您提供了有价值的见解或启发了新的想法!

参考资料:问题解决的艺术。 (无日期)。Artofproblemsolving.com。https://artofproblemsolving.com/wiki/index.php/United_States_of_America_Mathematical_Olympiad

阿扎尔,A. (2024年9月13日). 🍓 玩草莓:机器何时能推理。Exponentialview.co; 指数视图。https://www.exponentialview.co/p/strawberry-openai-o1

拜德,M. (2024年9月26日)。OpenAI计划成为盈利性企业 - 这对人工智能公司意味着什么。Mashable。https://mashable.com/article/openai-for-profit-turn

Claude. (n.d.). Claude.ai. https://claude.ai/login?returnTo=%2F%3F 克劳德。 (无日期)。Claude.ai。 https://claude.ai/login?returnTo=%2F%3F

Codeforces。(无日期)。Codeforces。https://codeforces.com/

Ferrer, J. (2024年1月9日). 变压器如何工作: 变压器架构的详细探索. Datacamp.com; DataCamp. https://www.datacamp.com/tutorial/how-transformers-work

GPT-4. (2015). Openai.com. https://openai.com/index/gpt-4/

你好 GPT-4o. (2024). Openai.com. https://openai.com/index/hello-gpt-4o/

如何OpenAI的O1模型可以改变业务运营 | Briolink。(2024年9月17日)。Briolink。https://briolink.com/news/innovation/how-openais-o1-model-can-transform-business-operations

介绍OpenAI o1。Openai.com。https://openai.com/index/introducing-openai-o1-preview/

学习用LLMs推理。 (2024). Openai.com. https://openai.com/index/learning-to-reason-with-llms/

李,T. B. (2024年9月20日)。OpenAI刚刚释放了一个具有非凡能力的外星人。Understandingai.org; Understanding AI. https://www.understandingai.org/p/openai-just-unleashed-an-alien-of

代码 3.2. (2022). 元羊. https://www.llama.com/

新闻,I. (2024年9月14日). OpenAI的o1正确解决了83.3%的问题,而GPT-4o只有13.4% | IBL新闻。 iblnews.org。 https://iblnews.org/openais-o1-correctly-solved-83-3-of-the-problems-while-gpt-4o-solved-only-13-4/

OpenAI. (2024). 什么是令牌和如何计算它们?Help.openai.com. https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them

派珀, K. (2024年9月20日). 新型AI可以“推理”意味着什么. Vox. https://www.vox.com/future-perfect/372843/openai-chagpt-o1-strawberry-dual-use-technology

Ramponi, M.(2024年8月21日)。解码策略:LLMs如何选择下一个单词。新闻,教程,人工智能研究。https://www.assemblyai.com/blog/decoding-strategies-how-llms-choose-the-next-word/

正在为您重定向- Medium。 (2024年). Medium.com。https://medium.com/r?url=https%3A%2F%2Fmedium.datadriveninvestor.com%2Fi-used-openais-o1-model-to-develop-a-trading-strategy-it-is-destroying-the-market-576a6039e8fa

正在重定向您 - Medium。 (2024b). Medium.com. https://medium.com/r?url=https%3A%2F%2Fartofproblemsolving.com%2Fwiki%2Findex.php%2FUnited_States_of_America_Mathematical_Olympiad

研究图表。 (2024年9月20日)。 如何OpenAI的O1系列脱颖而出重新定义人工智能推理。 Medium。https://medium.com/@researchgraph/how-openais-o1-series-stands-out-redefining-ai-reasoning-9e499937139e

罗宾逊,K. (2024年9月12日)。OpenAI发布了新的o1推理模型。The Verge; The Verge。https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt

魏,J.,王,X.,舒尔曼斯,D.,博斯玛,M.,伊赫特,B.,夏,F.,齐,E.,乐,Q.,& 周,D.(2022)。思维链提示引发了大型语言模型的推理。ArXiv:2201.11903 [Cs]。https://arxiv.org/abs/2201.11903

什么是强化学习?—强化学习解释— AWS。(n.d.). 亚马逊网络服务,公司。https://aws.amazon.com/what-is/reinforcement-learning/

什么是RLHF? — 从人类反馈中进行强化学习解释 — AWS。 (年份不详)。 亚马逊网络服务公司。请访问 https://aws.amazon.com/what-is/reinforcement-learning-from-human-feedback/。

2024-10-12 04:16:38 AI中文站翻译自原文