OpenAI的新o1模型:为什么所有人都感到沮丧

在最近几年,来自各大公司的人工智能模型备受关注,往往引发争议。其中一个值得关注的发展是OpenAI的o1模型,已经吸引了支持者和批评者。在本文中,我们将探讨为什么o1引发了不同的观点,并评估这个模型是否值得其创作者所宣称的投资。

关于模特

OpenAI的o1模型因其号称能够在提供最终答案之前“思考”而引起关注。这一过程基于“思维链”(CoT)方法。人工智能将复杂任务拆分为步骤并按顺序分析它们。这种方法有助于模型更有效和准确地解决问题,给人一种深思熟虑的答案方式的印象。现在复杂任务被更深入地处理——这无疑是人工智能发展的一大进步。然而,这种技术并不新鲜。

因此,有关OpenAI创造的投诉:该公司在发布这款产品时缺乏透明度。用户只得到了模型的一般描述,关键技术细节并未公开。这让很多人对01的真正创新性产生了疑问。在他们看来,该公司在广告中创造了独特性的感觉。但正如我们上面提到的,该模型内嵌的技术已经很长时间以来为人所知。

思维链条方法被使用,包括在GPT-4中。实际上,任何有访问OpenAI API或其他主要模型的用户都可以通过在代码中配置推理链条来创建自己的CoT版本。这使得所声称的革命性质变得值得怀疑:该模型本质上只是应用了现有技术,没有任何创新。

用户示例证实了这一观点。在试图询问该模型的运作方式时,他们收到了有限的回答,甚至遭到禁令的威胁。即使是那些没有试图“挖掘”人工智能内部的人也会遇到这种情况:

但是有很多优点

尽管受到批评,o1确实有其优点。无论其基础技术是否独特,它都能让人工智能生成不仅仅是最终结论。神经网络会逐步思考解决方案的每个阶段。这种方法使其更能处理更复杂的问题,其中不仅重要的是准确的答案,还有正确的推理逻辑。例如,在数学或编程中,模型逐步展开计算的每个阶段。

想象一项任务——解方程,不仅需要得到结果,还需要计算所有中间值。使用Chain of Thought时,o1模型提供逐步指导:

  1. 变量讨论。
  2. 方程的形成。
  3. 逐步解决方案。
  4. 每个阶段的验证。

因此,用户可以通过检查每个步骤的数据来验证计算的正确性。

与仅使用预训练数据的简单模型不同,o1通过复杂的强化技术主动学习。这使它更能适应新任务并提高中间结论的质量。但是,即使是这种技术也存在局限性:太长的链条最终可能导致扭曲。模型会丧失推理的线索。然而,这类问题发生的频率比简单的人工智能系统要低。

返回独特性

用GPT和Python,您可以创建自己的替代“独特模型”。当然,它会比原始模型差,但它将能够与之竞争。第一步是建立o1基于的推理链。 GPT已经支持此功能,您只需要训练模型让其询问自己中间问题或步骤以解决任务。为了创建更复杂的过程,您可以将提示分解成几个独立的链条。

这听起来很复杂,但却相当现实。您不会遇到请求次数限制。这是用户最经常抱怨的问题之一:o1每周只限制在30-50个提示。

当然,除了限制和编码之外,问题还有一个更简单的解决方案——使用具有广泛功能的现有人工智能。例如,使用Jadve AI,您无需进行任何编程即可创建报告、分析数据或自动化营销活动。各种任务的提示已经加载到神经网络中:从SEO到与心理学家合作。

用户对01有什么看法

该模型目前仅供Plus和Team所有者使用。 他们已在各种任务上进行了测试。 他们首先进行了经典的“草莓”测试。 他们检查了模型处理基本文本识别任务的方式 - 统计单词“草莓”中“r”字母的数量。

细微之处在于GPT-4o未能完成这项任务,因为人工智能以标记的形式处理文本。片段可能包括不完整的单词或字母,而是它们的组合。在“草莓”的情况下,标记被拆分为“草”和“莓”,模型看不到所有的“r”字母,这导致错误。

然而,与GPT-4o不同,o1-preview模型成功通过了这个测试。多处理器分析系统有所帮助。显然,o1-preview模型的工作原理是“GPT经理”。它创建了几个辅助模型来解决任务。例如,在“草莓”测试中,一个GPT模块突出显示单词中的字母,另一个检查它们并返回答案。然后另一个模块检查结果并将其发送进行最终评估。最终,用户将收到确认的答案。

然而,并不是所有对该模型的评论都是热情的。从事创造性任务的用户表达了不满。01模型不支持图像生成,也无法处理创造性任务。它不能为小说编写章节或编辑文本。该模型并不像其前任那样多才多艺。许多人怀疑在其他神经网络提供更多工具时,在一个有限制的平台上花钱是否值得。截图中就有一个例子。

用户们的另一个失望是操作速度。由于o1-preview需要执行多个步骤来解决任务,所以时间更长。一些用户抱怨等待回应可能需要长达一分钟。如果您需要立即答复的话,这很不方便。毕竟,截止日期并没有取消。

优点,缺点,比较

那么,我们有什么。o1型号的优势:

  • 在解决复杂任务方面的准确性。该模型擅长编程和科学研究。它使用逐步过程,使其能够找到正确的解决方案,即使是复杂的逻辑问题。
  • 逐步分析方法。由于顺序步骤的机制和中间结果的验证,o1可以处理大量信息。这对复杂计算和研究很有帮助。

缺点:

  • 性能慢。处理逐步解决方案需要很长时间。
  • 有限的创作能力。该模型不适用于创建文本,生成想法和大多数SEO任务。它不支持图像生成功能。
  • 有限的功能。这个模型缺少其他神经网络中存在的特性:记忆、文件上传和浏览网页。

让我们比较。o1 vs GPT-4:

GPT-4更加多功能和更快速适用于简单和一般任务。它支持文本和图像生成,写文章,编辑和创意任务。o1模型更慢,专注于准确的逻辑任务。

01对GPT-4。

GPT-4o 模型像 GPT-4 一样,展现出高速和多功能性,但在复杂逻辑任务中可能会出错。例如:草莓测试。另一方面,o1 模型通过逐步方法更好地处理复杂问题的分析,但这也使其速度变慢。

o1 vs Jadve人工智能:

o1和Jadve AI使用不同的方法来使用人工智能。第二个AI注重简单和多功能。它为用户提供现成的解决方案 —— 无需使用深度技术知识。这使得它非常适合需要快速和多功能工具的营销人员、内容管理人员和其他专业人士,但不需要o1的精确度和深度。

o1对其他LLMs(如Claude或LLaMA):

许多现代语言模型在速度和准确性之间提供平衡。克劳德提供了更好的上下文理解和创造能力,但在需要多处理器分析的任务中,o1超越了它。LLaMA更快,但在解决专业任务方面的准确性不及o1。

我们的结论是: o1模型是人工智能领域的一项重大成就。它的分析和信息处理方法使其成为一个强大的工具。但它的运行速度慢和功能有限限制了它的实用性。 o1不是所有任务的通用解决方案。在OpenAI完善技术之前,用户最好使用更易接触的平台。

2024-10-08 04:24:41 AI中文站翻译自原文