LLMs作为一切的接口
新UI范式的崛起
看看领先的LLM环境的最新能力,迷了眼——你可以看到一个未来,关注点不再是我们使用的应用程序,而是我们想要完成的任务。
在未来,我们不会“打开PowerPoint”,“去Asana”,甚至不会“谷歌”什么东西。相反,我们会想要“展示我们的想法”,“记录一个任务”,或者“查找”信息。LLM将起草适当的行动和工具,创造一个适当的用户界面来不断优化它们,并与完成它们所需的系统进行通信。
我认为LLM环境有可能成为我们所有数字任务的接口。这将代表一个根本性的用户界面转变 - 也许是自图形用户界面出现以来最重要的转变。
这可能听起来是一个大胆的说法,但让我们探讨一下为什么这并不像听起来那么不切实际。
这个未来的成分
为了跟上这种思路,我们需要考虑已经存在于现代LLM环境中但仍处于早期阶段的组件,例如ChatGPT和Claude。
- 原地迭代:像克劳德的文物或ChatGPT的画布一样的功能,我们可以在不重头开始的情况下改进内容。文物成为焦点,对话变成次要。
- 函数调用:LLM具有通过API与其他系统交互的能力,使其能够从另一个系统获取信息或执行任务。例如,参见GPT操作。
- 网络搜索和RAG:能够搜索网络或直接从特定领域的特定信息源检索信息,然后总结检索到的内容,提供参考和链接。查看ChatGPT搜索和RAG的定义。
这些成分将LLM定位为“一切的命令行”,但并非像我们以前所知的命令行那样。LLM不是僵化的命令和严格的语法,而是解释我们模糊的人类语言指令,指导我们以有效的方式完成任务。
这种“命令行”比喻只是一个起点。传统的命令行发展成了图形用户界面。在LLM世界中,语言可以是一个很好的起点和辅助工具,但对于对工件进行深入工作来说,富UI中的点选元素更加实用。
这样的界面将越来越频繁地出现在LLM界面中。在ChatGPT的Canvas中仍然有限的“建议编辑”能力直接暗示了我们将如何与LLM合作进行迭代,有时会直接进行编辑,有时会与LLM进行对话。开发人员已经在他们的IDE中与LLM进行互动的方式提供了一个更成熟的示例,这种双向与LLM合作的方式将逐渐应用到其他工件中。
如何在实践中进行展示
让我们考虑一下在这个以任务为中心的世界中的一些常见任务:
- 写一封介绍同事的电子邮件:LLM通过调用功能从LinkedIn获取个人资料。它访问我的电子邮件历史以查找联系方式和任何相关背景。它以我通常的风格草拟电子邮件,介绍每一方,包括相关的Linkedin链接,并建议下一步操作 - 所有这些都在一个类似熟悉的“新电子邮件”窗口的“文件格式”界面中进行。如果需要,我可以快速进行编辑或迭代,拖入附件,然后发送。
- 根据昨天头脑风暴的情况创建一份演示文稿:LLM浏览会议记录以总结要点。我对摘要进行修订,创作引人注目的故事情节。一旦满意,我会请求幻灯片组。在“制品界面”中打开“演示模式”,每张幻灯片都经过起草和格式化。我添加主题,请求特定图像,并亲自调整一些幻灯片。无需启动演示软件或从头开始。
- 添加一个新的团队任务:我提供一个简要描述,而LLM,在会议或最近活动中意识到之前的背景时,添加详细信息。准备好后,我会要求LLM将其添加到类似Asana或Jira的任务管理系统中,使用函数调用来分配任务,添加标签和设置截止日期。
想象将这个思维实验扩展到协作工作——多人同时与同一份文件、物品或界面交互,就像今天的在线协作工具一样。
而且我们甚至还没有开始谈论计算机将在我们离开时要处理的任务。我们要求处理特定传入消息、监控旅行交易或密切关注竞争对手活动的代理 — 仅举几例。
在这个设想的世界中,像ChatGPT和Claude这样的基础LLM环境成为我们的操作系统、浏览器、生产工具,以及无数SaaS应用程序的接口。
LLM赛车也是最好UI的比赛。
当微软,谷歌以及许多SaaS和传统软件供应商在现有软件框架中构建“副驾驶”时,新的范例——如克劳德的文物和ChatGPT的画布——暗示了一个更灵活、迭代的工作空间,我们在起草文件,演示文稿,数据分析等之间无缝地切换。这是一个工作空间,在不同类型的任务和工具之间的界限变得模糊。
这个转变不仅仅是关于构建最强大的语言模型。它还涉及提供最直观、集成的界面 - 这种界面从根本上改变了我们与数字世界互动的方式。