人工智能：OpenAI和Anthropic构建人工智能代理推理工具。RTZ＃518

… 早期阶段，但进展迅速

今年进入明年，领先的LLM人工智能公司继续加强他们的‘二级AI推理’和‘三级AI代理’能力这一人工智能技术浪潮。这是一个在这里讨论过的问题，尤其是在OpenAI通往AGI的路线图背景下。正如之前讨论的，这两个层面都需要大量的工作，而且很多工作需要同时进行。

OpenAI 曾经将其 AI 推理产品 o1（的预览和迷你版本）称为‘草莓’。我几天前讨论了 OpenAI 最近的‘Swarm APIs’，用于构建一个‘代理编排智能层’。

除了OpenAI外，其合作伙伴微软、Anthropic和许多其他企业软件公司，如Salesforce，都致力于构建软件基础设施，以使人工智能以更具可扩展性、弹性和可靠性的方式进行推理和代理工作。尽管现在还处于早期阶段，但将这些能力从“科学项目”转变为商业工程产品的工作正在继续进行。

特别是，开放AI和Anthropic，以及其他现有公司和初创公司，正在追求这些领域，以提高规模开发者的AI推理和代理能力。

正如《信息》报道的那样，“OpenAI在与Anthropic的对决中加倍投入编写软件的人工智能”。

OpenAI的ChatGPT已成为一个价值数十亿美元的业务，主要是因为程序员使用它来撰写和检查他们的代码，修复错误并将代码翻译成不同的编程语言。

现在，面对来自竞争对手人工智能初创公司Anthropic的竞争，OpenAI正致力于改进其为软件编程提供的工具。一些正在开发中的产品或功能旨在使在主要代码编辑程序（如微软的Visual Studio Code）内使用OpenAI的人工智能更加容易，而另一些则旨在承担更大的软件开发任务。

这些产品正处于开发阶段，尚未发布。

"编码任务成为OpenAI开发的大型语言模型的早期应用的一部分，部分原因是由于AI生成的代码可以快速测试其是否有效。微软的GitHub部门使用OpenAI的LLM来推动一个名为AI Copilot的产品，从2021年开始为程序员在键入代码时提供建议。"

“但是，ChatGPT在2022年底的推出提供了一个更广泛可及且免费的替代方案，迅速赢得了人气。然后，OpenAI说服了数百万程序员购买ChatGPT的升级版本——比GitHub Copilot更早获取升级的LLM——该版本可以响应处理此类任务的对话请求。这些功能支持了现在正以每年约30亿美元的速度产生的订阅产品。”

周二，Anthropic宣布推出新软件，可以像人类一样使用计算机代表人们采取行动，比如移动光标，点击按钮和输入文本。

“Anthropic软件在理论上可以帮助程序员完成诸如构建网站和改善外观等任务。 OpenAI已经开发了类似产品，被称为计算机使用代理，已经开发了几个月，但尚未推出。”

特别是Anthropic专注于其LLM AI产品Sonnet，通过模拟鼠标控件来控制计算机屏幕。 Techcrunch在“Anthropic's new AI model can control your PC”一文中进一步解释。

Anthropic于周二发布了经过升级的Claude 3.5 Sonnet模型，该模型可以理解并与任何桌面应用程序进行互动。通过一个新的“计算机使用”API，现在处于公开测试阶段，该模型可以模拟按键、按钮点击和鼠标手势，本质上模拟了一个坐在PC前的人。

安思在一篇与TechCrunch分享的博客文章中写道：“我们训练了克劳德，让它能够看到屏幕上发生的事情，然后使用软件工具来执行任务。当开发人员要求克劳德使用一款计算机软件并为其提供必要的访问权限时，克劳德会查看用户可见的屏幕截图，然后计算需要垂直或水平移动多少像素才能将光标移动到正确位置进行点击。”

开发人员可以尝试通过Anthropic的API、亚马逊Bedrock和谷歌云的Vertex AI平台使用计算机。不使用计算机的新3.5 Sonnet正在推出克劳德应用程序，并带来了比之前的3.5 Sonnet型号更多的性能改进。