Claude 3.5:点击按钮,移动光标,并填写电脑使用表格

安索普的Claude3.5 Sonnet“计算机使用”可以自主执行计算机任务

Photo by Solen Feyissa on Unsplash

LLM可以点击按钮或移动鼠标吗?当然可以!

就在似乎生成式人工智能达到极限之际,克劳德3.5 Sonnet引入了与计算机进行交互的显着新功能,“计算机使用”。

什么是克劳德的计算机使用API?

它不再只是一个文本生成模型,而是现在可以通过点击按钮、填写表单、移动鼠标等方式与计算机系统进行互动!

但Claude3.5如何启用计算机使用?

在那之前,你需要知道

什么是人工智能代理?

在GenAI中,代理通常指强化了外部工具以执行超出简单文本生成任务的LLM。例如,文件创建代理将LLM与一个允许其创建文件的工具(如Python代码)结合在一起,从而使其能够执行特定功能,而不仅仅是生成文本。

Claude3.5被训练为一个特工(而不是LLM)

  1. 与传统的LLMs不同,Claude团队专门训练了这个模型以执行移动光标和填写表单等任务。

克劳德3.5十四行诗现在不只是在文本生成数据集上训练。

2. 人类学开发了一个API,使克劳德能够理解和与计算机界面交互,使其能够执行访问数据库和启动应用程序等任务。

3. 此 API 允许开发人员将克劳德整合到各种应用程序中,使其能够将指令(例如,“收集数据以生成报告”)转化为具体的命令(例如,访问数据库,启动应用程序,导航到特定文件)。

4. 在OSWorld进行的评估中(评估AI模型与计算机以类人方式交互的能力),克劳德3.5 Sonnet在仅有截屏的类别中得分为14.9%,超过下一个领先的AI模型,得分为7.8%。

5. 当克劳德负责更复杂的操作时,他的表现提升到了22.0%。

我很困惑,不确定克劳德3.5十四行诗是否仍应严格归类为LLM,因为它现在显然不仅仅是LLM。

例子

如果用户给出一个任务“从该系统中删除不必要的文件”,

克劳德3.5可能会将其分成多个子部分,比如

打开文件资源管理器:启动文件管理应用程序。

转到所需目录:转到不必要文件所在的文件夹。

选择不必要的文件:高亮显示您想要删除的文件。

右键单击选定的文件:打开上下文菜单。

选择“删除”:点击“删除”选项删除所选的文件。

确认删除:如果有提示,请确认您要永久删除文件。

清空回收站: 打开回收站并选择“清空回收站”来永久删除已删除的文件。

并且,它不是像我们这样去做(比如移动鼠标,点击删除),而是理解内部启动这些任务的计算机语言来触发它们。

更好的性能

并且不仅如此,该模型还在许多重要基准测试中表现出色,超越了GPT-4o和谷歌的Gemini。

如上所述,克劳德3.5新版本没有在官方页面上对GPT4-o1进行测试。因此我认为GPT4-o1仍然领先。

挑战和限制

克劳德目前在使用电脑方面存在一些限制,尤其是在滚动和拖动等操作上。随着未来几个月的改进,开发人员被鼓励先从低风险任务开始。为了解决垃圾邮件和虚假信息等潜在威胁,团队正在实施积极的安全措施,包括新的分类器用来检测有害使用行为。

所以,总的来说,这个看起来是非常酷的发布,最终是LLMs的升级。另外,鉴于GenAI社区的表现,我相当肯定这些指标很快会有所提高,LLMs将直接帮助我们至少处理一些琐碎的任务。

希望你尝试一下克劳德3.5电脑使用API。

2024-10-24 04:11:01 AI中文站翻译自原文