TAI#117:OpenAI的O1模型是否为LLM推理令牌解锁了一个完整的“摩尔定律”反馈循环?

此外,DataGemma,Pixtral 12B,Reader-LM,Mini-Omni,MemoRAG等等!

这周在AI领域发生了什么事情?由Louie报道

OpenAI的新o1系列“推理”模型在这一周明显占据中心舞台。这些模型在推理过程中使用了一种先进的搜索和推理形式。该系统在得出答案之前进行了多个思考步骤,并利用强化学习(RL)来改进其推理过程。自从一年多以前OpenAI泄露了“Q*”突破性进展以来,这些模型一直备受期待。

通常,对于该模型的反应从声称解锁AGI到对OpenAI仅应用“思维链”提示的漠视性声称都有。我们认为这个模型对于某些任务来说是一个巨大的突破,但它并不是现有模型的即插即用升级;你不能简单地使用现有的LLM管道和提示,并期望它能获得更好的结果。虽然模型的技术细节很少,但这个模型显然不仅仅是提示,而且在一种新的“大规模强化学习算法”上进行了重大投资,这种算法“教授模型如何通过其思维链进行有效的思考”。也许这个模型最初是GPT-4o,但我们认为后续的训练计算投资可能导致了模型权重的实质性不同。我们还认为可能需要一些架构调整才能实现这种推理搜索过程。很可能还需要大量的投资来编译新的后期训练数据,其中我们期望有经验丰富的科学家和程序员被要求详细解释他们解决具有挑战性问题的内部推理的全部细节。最终的模型能够完成一些现有LLM完全无法做到的任务,尽管成本要高得多。

在一些基准测试中,性能提升是显著的;例如,在博士级科学问题(GPQA钻石)上,GPT4o实现了53.6%,o1-mini为60.0%,o1-preview达到了73.3%,而尚未发布的o1达到了77.3%。当然,缺点是成本和延迟;这些模型经常花费10-60秒“思考”,使用隐藏的推理令牌。这也增加了成本。虽然o1-preview的每个令牌价格比GPT-4o高出6倍,但考虑到这些新的思考令牌,价格往往可以达到高达每个输出令牌高出30倍。o1-mini的定价比这低5倍,甚至更加针对数学和编码问题,这样可以获得更好的结果。

对我们来说,OpenAI的o1报告中最大的亮点是其披露了与“测试时间”(或“推理时间”)计算能力相关的非平稳缩放规律。虽然这仍然会以对数方式缩放(因此变得昂贵),但事实是您可以只需在推理上花更多钱,并实现更大的性能,而无需训练更具能力的模型。这表明了OpenAI的RL搜索模型的成功,在这里,推理计算不仅不会在沿着错误的方向后丢失和卡住,反而可以通过更多的推理计算朝着正确答案不断前进。虽然这里仍需要很多精炼的工作,但它打开了仅仅将o1模型留给一天或一周来解决最困难问题的可能性。当然——这对于OpenAI的商业模式也非常方便!

你为什么要在意?

除了一些任务上的开箱即用能力解锁(到目前为止,我们发现这在头脑风暴任务中特别有价值,代理管道也变得更容易),我们认为真正的故事在于开始将基于RL的“推理步骤”搜索与LLMs集成,并扩展推理时间计算以实现更大的能力。

许多人认为,单独的LLMs永远无法真正推理和泛化;它们只是记忆训练数据分布中的统计特征。这可能是真的,也可能不是,但我们认为LLMs在类似推理的任务上表现不佳的一个关键原因是因为互联网上几乎没有推理数据。人类在写出他们的想法时总是跳过关键点,不会把他们完整的内心独白写下来,每个思考步骤都不写下来— 所以LLM认为它只能从一个标记跳到另一个标记中猜测。在某种程度上,我认为到目前为止我们一直在积极地训练LLMs不去推理;他们在训练过程中尝试进行这些必要的中间计算/思考步骤并不只是忽略到像在互联网训练数据格式中呈现的下一个字。出于这个原因,我认为我们将会发现很多简单的模型在朝o1的方向发展。

有段时间以来,我们一直在强调LLM推理代币价格的快速降低。例如,带有DeepSeek V2的缓存输入代币的价格比两年前Da-Vinci 002(GPT-3)代币的成本低了4,000倍。在摩尔定律的高峰期,每个晶体管的成本在1982年之前的前14年里降低了约4,000倍。我们认为“摩尔定律”越来越成为一个合适的类比。尽管LLM推理代币价格大幅降低,但直到现在仍然有一个缺失的关键元素是反馈循环。

尽管摩尔定律本身只是一个预言,但我认为它实际上由三个非常真实的关键组成部分组成,导致持续的反馈循环和我们所看到的进步:

1) 学习率/莱特定律:产品产量的增加导致成本降低,原因是A)研发按收入进行规模化、B)公司学习成本表和员工经验驱动流程改进,以及C)规模经济。

2)价格解锁的容量:降低成本导致更广泛的应用变得经济可行,从而导致更多的累积生产和更低的成本。

3) 通过能力解锁的体积:更多的晶体管一起使用会带来更高的能力,进而可能导致更多的应用程序变得可能,更多的生产,降低成本等。

直到现在,生成的LLM推理令牌的累积增长一直在领先地实现减少成本和解锁新的经济应用的快速突破。然而,更多令牌并不容易应用于同一任务以解锁更多功能(类似于在一块芯片上放更多晶体管)。这些新的o1模型展示了测试时间计算比例定律,并且从将更多“思考令牌”应用于问题中获得明显的能力增益,这很可能是推理令牌数量的几个数量级。我预计这会在某些情况下导致每个LLM任务的成本更高(在这种情况下,投入大量令牌/思考时间是有意义的)——但是这增加的令牌量会加速走向权利法则,进一步降低每个LLM令牌基础上的成本。

有趣的是,实际上LLMs正在重新激发摩尔定律的第三部分。从每个任务中获得更多的推理标记的能力增益实际上看起来比从每个芯片中获得更多晶体管的增益更为明显,因为很久以前晶体管就饱和了这些好处。然而,现在庞大的LLM训练集群意味着我们确实正在再次从将更多晶体管设置为一个任务中解锁更多巨大的新能力(例如,100k H100 GPU训练)。然而,鉴于芯片行业的规模,要真正对过去的累积晶体管生产造成重大变化,从而导致每个晶体管价格的进一步降低,仍需要很长时间。

— 路易·彼得斯 — Towards AI共同创始人兼首席执行官

这个问题是由Semrush带给您的。

使用ContentShake AI创建无限量的SEO优化内容

寻找一款人工智能工具来帮助你在搜索中排名吗?

尝试Semrush的ContentShake AI!这款智能AI内容工具能够生成为您的目标关键词排名优化的内容。

只需选择一个内容想法,几分钟内即可完成您的博客帖子。然后,使用直观的博客编辑器进行增强,并直接发布到您的WordPress网站。

最好的部分是?您还可以更新现有内容并创建无限数量的新文章 — 而不额外费用。

现在免费试用!

热点新闻

1. OpenAI的新o1-Preview和o1-Mini模型

OpenAI 推出 o1-preview,这是一系列新推出的推理模型中的第一个,非常擅长完成科学、编码和数学等复杂任务。这些模型在响应之前采用先进的推理,表现出比以前更优秀的性能,测试表现可与严格领域的博士生相媲美。尽管缺少一些 GPT-4o 的功能,o1-preview 在专门推理任务上表现出色,有望取得重大的AI进步。

2. Google AI 介绍了 DataGemma:一组开放模型

Google宣布了DataGemma,这是与大量真实世界数据连接的第一个开放模型LLMs。 可在Hugging Face上供学术和研究使用,这两个新模型都建立在现有Gem家族的开放模型基础上,并使用来自Google创建的Data Commons平台的大量真实世界数据来支撑它们的答案。 该公共平台提供一个开放的知识图谱,其中包含来自经济、科学、健康和其他领域的超过2400亿数据点,这些数据来自可信组织。

3. Mistral 发布 Pixtral 12B,其第一个多模型。

米斯特拉(Mistral)发布了第一款能处理图像和文字的模型,名为Pixtral 12B。基于米斯特拉的文字模型Nemo 12B,这款新模型可以回答关于任意数量和任意大小图像的问题,只需要提供URL或使用base64编码的图像,这是一种二进制到文本的编码方案。

4. OpenAI明年可能改变其非营利组织结构

本周早些时候的报道称,人工智能公司正在就以1500亿美元的预估值筹集65亿美元进行谈判。现在路透社表示,此交易的达成还取决于OpenAI是否能够重新构建并取消投资者的利润上限。事实上,据《财富》杂志报道,联合创始人兼首席执行官Sam Altman在一次全公司会议上告诉员工,OpenAI的结构可能在明年发生变化,使其更接近传统的营利性企业。目前,OpenAI的结构是其营利性部门由一个非营利性组织控制。

5. Jina AI 宣布推出 Reader-LM,一个用于清理和转换 HTML 到 Markdown 的小型语言模型。

Reader-LM是由Jina AI开发的紧凑语言模型API,用于高效地将HTML转换为Markdown,超越了像可读性和正则表达式这样的传统方法。尽管体积小,但它在与较大模型的比较中表现出色,支持大量标记上下文,并优化了GPU的性能。

6. 甲骨文推出了全球第一台装配了13.1万个NVIDIA Blackwell GPU的赛塔规模人工智能超级计算机

甲骨文推出了全球首个由NVIDIA Blackwell GPU支持的赛塔云计算集群。它提供高达131,072个GPU,并提供2.4赛塔FLOPS的峰值性能。甲骨文的这一新发展支持先进的人工智能研究和开发,同时确保区域数据主权,这是像医疗保健和协作平台(如Zoom和WideLabs)等行业的关键因素。

7. AMD正在放弃旗舰游戏GPU,首先追逐人工智能。

AMD优先发展人工智能,而不是旗舰游戏显卡,以实现更大的市场份额并吸引开发者的支持。据Jack Huynh称,目标是达到40%的市场份额,与英伟达竞争,并在潜在地重新聚焦游戏显卡之前,为开发者优化AMD平台。

保持 HTML 结构,将以下英文文本翻译成简体中文: 六个 5 分钟的阅读/视频,让您不断学习

1. 你应该了解的顶级RAG技术(王等,2024年)

本文探讨了根据2024年王等人的研究确定的最佳检索增强生成(RAG)栈。它介绍了最佳组件及其工作原理,帮助您打造顶尖的RAG系统。

2. 使用GPT-4o进行网络抓取

这篇文章探讨了使用GPT-4进行AI辅助网络爬虫的用途,突出了它从HTML中解析结构化数据的能力。通过OpenAI的API,作者测试了它在简单和复杂表格上的有效性,解决了合并行和准确XPath生成的挑战。研究发现,将数据提取与随后的XPath生成结合起来更加有效。

3. 为什么小型语言模型是人工智能的下一个大趋势

SLMs正准备实现AI访问的民主化,并通过实现成本效益和有针对性的解决方案来推动各行业的创新。本文探讨了小型语言模型的潜力,更快的开发周期、提高效率以及根据特定需求定制模型的优势。

4. 使用GPT,Docker和Azure构建和部署FastAPI视频描述应用程序:从代码到云端

本文提供了一个逐步指南,教你如何构建一个FastAPI应用程序,该应用程序可以输入一个视频URL,并使用人工智能生成描述。它还展示了如何使用Docker将应用程序容器化,并部署到Azure Web Apps。

5. 优化佛罗伦萨-2 — 微软领先的视觉语言模型

Microsoft在2024年6月发布的Florence-2是一种基础视觉语言模型。本文展示了在DocVQA上对Florence进行微调的示例。作者报告称Florence 2能够执行视觉问答(VQA),但发布的模型不包含VQA功能。

6. “AI科学家”会给科学带来什么?

一个国际团队开发了一个人工智能系统,旨在模仿一名新手博士生生成假设并进行计算机科学实验。尽管有望推动自动化科学发现,但它经常产生类似于过早科学猜测的不连贯和不可靠的结果。本文探讨了AI科学家的能力和内部工作方式。

仓库和工具

  1. AlphaFold 3是Ligo的AlphaFold3的开源实现,这是一个不断进行的研究项目,旨在推进开源生物分子结构预测。
  2. 呆滞d厕是d低l时值晚u格a,d敬l幸l完x全l的m语y音z交a互n模范d,z基y于l呆滞-3.1-8B-区x话p版,d旨v在h实a现vGPT4o级k语y音z能j力u。
  3. iText2KG是一个设计用于逐步构建一致的知识图谱的Python包,其中包含已解析实体和关系。
  4. MiniCPM 是一个边缘端LLM,超越了GPT-3.5-Turbo。
  5. Aider是您终端中的AI双人编程。
  6. GPT Pilot 是一款人工智能开发者的伴侣。
  7. Taipy将数据和AI算法转化为可用于生产的web应用程序。

本周热门文章

计划使用自然语言来改善LLM搜索以生成代码

研究表明,使用自然语言规划可以提高在代码生成中LLMs的效果。PLANSEARCH算法可以创建多样化的自然语言规划,显著改善解决方案的多样性和性能,在LiveCodeBench上达到了77.0%的通过率。这种方法凸显了生成的想法多样性与性能提升之间的直接相关性,提出了计算问题解决中的新范式。

2. 迷你全方位:语言模型可以在流式传输中听取、交谈并思考

这篇论文介绍了Mini-Omni,它是一种基于音频的端到端对话模型,能够实现实时语音交互。论文提出了一种文本指导语音生成方法和在推断过程中的批处理并行策略,以提高性能。这种方法有助于保留原始模型的语言能力,同时最小化降级,使其他工作能够建立实时交互能力。

3. MemoRAG:通过基于记忆的知识发现迈向下一代RAG

这篇论文提出了MemoRAG,一种具有长期记忆的新型RAG方法。MemoRAG采用双系统架构。一方面,它采用轻量但具有长距离的LLM来形成数据库的全局内存。另一方面,它利用昂贵但表达力强的LLM,根据检索到的信息生成最终答案。

4. 可配置的基础模型:从模块化角度构建LLMs

本文提供了对可配置基础模型的构建、利用和限制的全面概述和调查。总体而言,它提供了对现有LLM研究的新鲜模块化视角,并激发了未来创造更高效、可扩展的基础模型。

5. 通过可扩展的反向强化学习来模拟语言

这篇论文探讨了在微调语言模型时使用逆强化学习(IRL),传统上依赖于最大似然估计(MLE)。IRL提高了性能、输出多样性和鲁棒性。将IRL与MLE结合起来为完善大型语言模型提供了一个有前途的选择。

6. PaperQA:用于科学研究的检索增强生成式代理程序

这篇论文介绍了PaperQA,一个可以回答关于科学文献问题的RAG代理。它可以在全文科学文章中进行信息检索,评估来源和段落的相关性,并使用RAG提供答案。

7. LLMs是否能够产生新颖的研究思路?一项涵盖100多名NLP研究人员的大规模人类研究。

这项研究建立了一个实验设计,以评估LLMs的研究构思能力。它首次对比了NLP专家研究人员和LLM构思代理之间的能力。对LLM和人类构思的盲审表明,LLM生成的构思更具新颖性(p

快速链接

Google正在向其AI笔记软件NotebookLM添加“音频概览”功能。音频概览将为用户提供另一种处理和理解上传到应用程序的文档中的信息的方式,例如课程阅读或法律简报。

2. 首席执行官Sebastian Siemiatkowski宣布,Klarna将结束与Salesforce和Workday的服务提供商关系,这是由AI项目推动的主要内部改革的一部分。

3. Arcee AI推出了SuperNova,这是一个具有70亿参数的语言模型,专为企业部署而设计,具有先进的指令跟随能力和完全定制选项。

4. Salesforce推出了Agentforce,这是一套自主AI代理人,可以增强员工并处理服务、销售、营销和商务中的任务,提升效率和客户满意度。

5. 李飞飞从包括安德森·霍洛维茨、NEA和激进风投在内的支持者那里为她的新创企业World Labs筹集了2.3亿美元。World Labs的估值超过10亿美元,资本在两轮融资中间隔了几个月筹集。

谁在招聘人工智能领域?

我们的Towards AI工作搜索平台正在获得动力!我们在八月收到了50万次谷歌搜索印象,并且现在正在列出3万个AI工作。我们增强的LLM管道不断搜索符合我们AI标准的工作,并删除过期工作。我们大大简化了按特定AI技能搜索和筛选的过程,同时还允许您设置针对具体技能或来自特定公司的工作的电子邮件提醒。所有这些都是免费的!我们希望我们的平台能让您更快地找到并申请真正符合您AI技能和经验的工作。

合同,Cytokinetics的AI工程师(自由职业者/美国加州旧金山)

AIML — 机器学习研究员,苹果机器人(美国加利福尼亚州库比蒂诺)

数据科学家(IV) - HP Inc.(德克萨斯州春天,美国)的生成式人工智能

技术人员 — 机器学习 @美国微软公司(加利福尼亚州山景城)

应用人工智能工程师@Valence(远程)

人工智能软件工程师@Ataccama(远程/布拉格)

NLP LLM运营架构师和AWS工程师,医疗保健和生命科学@Norstella(远程/美国)

有兴趣分享这里的工作机会吗?请联系 sponsors@towardsai.net。

认为一位朋友也会喜欢这个吗?分享这封通讯,让他们加入对话。

2024-09-18 04:23:58 AI中文站翻译自原文