生成式人工智能就像一把锤子,没有人知道哪些是钉子。

这个比喻可能有点牵强,但请耐心听我说。想象一下没有锤子的世界。你用双手钉墙挂画,用脚踢砸墙板,用石头绑住帐篷防止被风吹走。

现在想象一下,这个世界有着悠久的科学研究历史——其中许多研究非常有希望甚至是革命性的——以及围绕着人工劳动(AL)概念的科幻和未来主义传统。也许在不那么遥远的将来的某一天,人们预计AL将会钉上你的指甲,拆掉你的墙壁,搭起你的帐篷。但AL不仅于此。在未来,所谓的人工通用劳动(AGL)将洗碗、洗衣、遛狗、接孩子放学,以及做你能想象到的所有烦人的劳累任务。AGL将让你摆脱单调的生活,让你和其他人类能够生存在一个类似WALL·E般的后劳动乌托邦中。

然后,一家名为OpenAL的公司,其宣称的使命是实现《机器人总动员》的情景,发明了锤子。 (好吧,实际上是竞争对手发明了锤子,但OpenAL制造了一个非常好的锤子并将其推向市场。)突然之间,可以比以往更快更有效地钉钉子。一大批看起来科学的出版物表明,只需足够大的锤子,您便可以比最快的建筑工人更快地拆除墙壁。无数AL优先技术公司莫名其妙地出现,使用最新的AL工具(从OpenAL获得许可)固定帐篷。独立黑客找出如何使用家里散落的材料制作自己的锤子,并免费在网上发布说明,引领着开源AL的黄金时代。

对于很多人来说,这显然是标志着以WALL-E场景结束的过程的早期阶段。OpenAL的网站表示他们的整个目的是为了实现AGL。他们推出了这种革命性的新AL技术,迅速在各个领域找到应用,并真正改变了许多形式的劳动方式。长期以来一直在猜测人工劳动危险的互联网人开始看起来极为令人信服,并且正在新闻中要求立即停止进一步发展AL,以免为时已晚。

但请等一下。在《机器人瓦力》的情节中,AL正在洗碗。锤子能洗碗吗?这似乎在表面上不太可能,但这里的技术变革的速度感觉非常快,你不想看起来像个白痴。仅仅几个月后,OpenAL发布了Hammer4,你发现考古学家现在正在使用新的AL锤子挖掘化石 —— 谁能想到呢?非常聪明的专家们经常许诺,即使今天Hammer4不能洗碗,只是时间问题,Hammer5一定会推出,肯定会有更多功能。顺便说一句,要造一个Hammer5需要约7万亿美元,但如果这能实现《机器人瓦力》的情节,许多人认为,花7万亿美元是值得的。

您可能已经明白了,但我建议ChatGPT的发布有点像隐喻性地释放了锤子。像ChatGPT、稳定扩散、索拉等巨大的生成AI模型,是人工智能技术的一个新颖而令人惊讶的子类别,具有广泛和迅速扩展的潜在用途。ChatGPT在某些方面表现得非常出色,让我想不到基于LLM的程序会擅长的,比如编写特定类型的计算机程序、总结和编辑文本,以及许多其他事情。

但是ChatGPT似乎在某些事情上很差。例如,它不擅长玩甚至非常简单的策略游戏。

对我来说,这项技术的基本谜团就在于:为什么ChatGPT在求和为22的游戏中表现不佳?是因为ChatGPT仍然是一个刚刚开始的技术,还没有达到那个水平?也许我只是没有正确地提示,或者GPT-4没有足够的参数,或者它还没有见过足够的训练数据。或者,是因为求和为22的游戏不是基于LLM的聊天机器人擅长的类型?如果ChatGPT就像一把锤子,求和为22就像是破坏混凝土,需要一个更大的锤子?还是像洗碗那样,用锤子基本上就不是正确的工具?

要非常清楚,这并不意味着计算机程序无法最佳地玩这个游戏。这里有一个简单的Python程序,如果对手没有完美地发挥,它将100%地赢得这个游戏。

def choose_number(current_sum):
return (6 - current_sum) % 8 or 1

def play_game(first_turn = 'human'):
current_sum = 0
my_turn = first_turn == 'computer'
while current_sum < 22:
move = choose_number(current_sum) if my_turn else int(input("Input your move: "))
current_sum += move
print(f"{'I' if my_turn else 'You'} chose {move} bringing the total to {current_sum}.")
my_turn = not my_turn
if my_turn:
print("You win")
else:
print("I win")

play_game()

这是与这个程序对战的样子。

The computer beating me at sum-to-22

所以赢得这个游戏并不是计算机无法做到的事情;事实上,这种类型的游戏传统上是计算机擅长的。只是ChatGPT似乎并不擅长这种类型的事情,问题在于它是否最终能够通过进一步的改进解决这个问题,或者它是否只是一个锤子找不到钉子的例子。我并不是因为求和为22的游戏特别重要才固执地注意它。顺便说一句,如果ChatGPT除了求和为22的游戏之外其他所有事情都能做到,那就很不错。但这似乎不太可能。相反,求和为22的游戏似乎代表了ChatGPT擅长的问题类别。现在弄清楚什么属于这个类别,什么不属于这个类别,是一千亿美元的问题,但我稍后会回来谈这个问题。

人们讨论人工智能轨迹时最常见的观点是,如果有类似sum-to-22游戏的东西,今天人工智能做得不太好,那么它很快就一定能够做到。人工智能能够解决这个问题以及其他所有问题只是时间的问题;像OpenAI这样的公司只需要更多的时间和金钱来培训越来越聪明的人工智能。我认为这可能不是当前事物状态的准确图景,我有几个理由认为如此。

没有一个被称为“人工智能”的东西。

人工智能能做什么和不能做什么的问题变得非常具有挑战性,许多评论家有一种令人沮丧的倾向,他们模糊了人工智能技术的分层级别之间的界限。人工智能,就像寓言中的人工劳动一样,是一个庞大而模糊的技术类别,包括从象棋引擎到搜索引擎,从人脸识别软件到波士顿动力的机器狗,再到《她》中的操作系统在内的一切。需要智能的任务集合,就像需要劳动的任务集合一样,是庞大且多方面的。就像人工劳动一样,人工智能类别中包含的技术都有各自能够或无法做到的事情。你不能用钻头洗盘子,也不能用Stockfish象棋引擎开车。

AI太过宽泛和模糊,无法清晰地分解为适当的层次结构,但有一些方式可以对其施加一种混乱的秩序。在最宽泛的层面上,也许可以区分符号AI和机器学习(尽管有一些你可能会称之为“AI”的事物实际上不属于这两个类别,比如谷歌的PageRank算法或你的GPS用来确定点对点方向的算法)。在机器学习领域,你可能会有一些子类别,比如分类器或推荐系统,其中一个子类别可能是生成式AI。在这之下的一个类别可能是基于LLM的生成系统,ChatGPT就是一个例子。这不是组织所有这些的唯一方式,甚至可能不是最佳方式,但我试图说明的是ChatGPT只是科技的广阔宇宙中的一个小点,类似于锤子是工具这一类别中的一个例子,与螺丝刀、洗碗机、汽车、望远镜和物质复制器并列。

经常情况下,对新技术的报道会将这个庞大的类别合并为一个模糊的整体,将其各个元素的属性归因于整个人工智能。例如,深度学习最近发表的一篇关于他们开发的名为AlphaGeometry的系统用于解决几何问题的论文的报道。

  • 纽约时报:人工智能的最新挑战:数学奥林匹克
  • 科技博客:DeepMind的最新人工智能可以解决几何问题
  • 自然:这个人工智能刚刚找出了几何学 — 这是朝着人工推理迈出的一步吗?
  • 科学美国人:人工智能匹敌数学奥林匹克最强选手的能力

这并不是DeepMind在数学人工智能领域的唯一重大进展。大约一个月前,他们发表了另一篇关于他们建立的一个名为FunSearch的系统的论文。以下是一些报道此事的文章标题。

  • 自然:DeepMind AI 在未解决的问题上超越人类数学家
  • 下一个网络:DeepMind的人工智能发现了几十年来数学难题的新解决方案 — 超越人类
  • 未来主义:DeepMind称其AI解决了人类难以解决的数学问题
  • 新科学家:内置事实核查器的DeepMind AI进行数学发现

一个偶然观察者可能会合理推断,从这些标题中,DeepMind的科学家拥有一种名为“AI”的东西,正在做所有这些事情。也许DeepMind的这种人工智能本质上与ChatGPT这种也自称为“AI”的实体相同。

所有这些实际上让人觉得“人工智能”是一种离散的事物,管理聊天机器人,解决未解决的数学问题,击败高中生参加几何奥林匹克竞赛。但事实并非如此。FunSearch,AlphaGeometry和ChatGPT是完全不同类型的技术,分别完成完全不同类型的任务,根本无法互换或交互操作。你无法与AlphaGeometry对话,ChatGPT也无法解决几何奥林匹克竞赛的问题。

大型语言模型在各种推理任务上展现出卓越的推理能力。然而,在解决[这些几何问题]时,GPT-4的成功率为0%,经常在输出中出现句法和语义错误,几乎没有对几何知识和问题陈述本身的理解。(Trinh, T.H., Wu, Y., Le, Q.V. 等人。解决奥林匹克几何问题无需人类演示。)

所有这三种技术都有一个共同之处,那就是它们都是使用LLMs构建的,更普遍地说,它们都是这种名为生成式人工智能的爆炸性新范式的应用。这可能会让人觉得它们之间的联系比实际上更密切。但它们是LLMs的极其不同的应用。在开场寓言的世界中,研究人员拿出了巨大的铁锤和反射锤,新闻媒体报道说,人工劳动现在可以拆除石膏板并测试您的膝反射。

Modified from David Nascari and Alan Sved’s image on Wikimedia Commons

这并不完全不正确,但却误导了将非常不同的东西简化为一个概念。是的,敲击锤和重锤都是基于锤子的人工劳动技术,但它们之间有足够重要的区别。重要的是,对重锤的进一步发展并不意味着对反射锤的有效性有任何影响,反之亦然。而且,它们的进展也并不能说明基于锤子的技术能否用来洗碗。AlphaGeometry的发明同样也并不能说明ChatGPT是否能够在求和为22的游戏中击败我。它们都是基于LLM的技术,但它们之间的差异是如此之大,以至于它们之间并没有真正意义上的相互关联。

在这里非常重要的是要具体,因为有很多不同的事物被算作“人工智能”,它们都有非常不同的特性。如果把它们随意混合在一起,就会形成一种实际上并不存在的系统的图景,具有一系列没有任何一样东西具有的能力。 “人工智能”可以在求和为22的游戏中获胜,这一点是毫不含糊的;例如,我在本文开头提到的那个。重要的问题是这种具体类型的人工智能系统能否做到这一点,更重要的是,这种人工智能系统到底能做什么,又不能做什么。很明显,人工劳动可以洗碗(例如使用洗碗机);关键问题是一个锤子能否做到。

一个通用的文本生成器就像一个万能的锤子。

我能感觉到一些人阅读这篇帖子时透过计算机屏幕对我尖叫,说ChatGPT和锤子之间的比较是一个范畴错误。 锤子只能做一种事情:基本上,它们会打击东西。 任何通过打击来完成的任务都将是锤子的候选任务,相反,任何不需要打击的任务则不会是。 另一方面,ChatGPT生成文本。 通过写文本你能做什么? 只要你能想象到的,你都能做到! 通过产生正确类型的文本,你可以解决数学问题,编程计算机,写剧本,谈判折扣,诊断患者,等等。 列出不能通过写文本完成的事情可能更有效。 从这个角度来看,ChatGPT是朝着人工通用智能之路迈出的一步,一种人工智能形式,可以以超人的效率处理绝对任何任务。

但在这个观点的表面之下潜藏着一个非常强烈的假设,如果没有这个假设,整个论点就会崩溃。假设是ChatGPT能够生成任何类型的文本,执行所有这些任务所需的所有文本都可以通过ChatGPT用于生成文本的特定程序来生成。如果有一种特定类型的文本似乎不擅长,那不是因为基于LLM的程序不适合生成那种类型的文本,而仅仅是因为我们没有给OpenAI足够的财力来制作一个足够庞大的语言模型。

在直接讨论这个论点之前,我只想指出如果这是真的,那将是多么令人惊讶。很多计算机程序可以生成文本,但不是任何类型的文本。我的小Python脚本可以玩sum-to-22游戏并生成文本,但只是sum-to-22游戏的转录。武汉名称生成器可以生成文本,但只有武汉名称。利用计算机生成文本的能力并不新鲜。但如果ChatGPT使用的文本生成算法可以用来生成任何类型的文本,那么我们真的发明了这个世界上任何问题都可以解决的工具。这可能是相当重要的事情!难怪那些相信它的人如此兴奋!难怪山姆·奥特曼认为OpenAI需要7万亿美元!但这是一个非常巨大的声明,需要大量证据才能接受。

严格来说,这是微不足道的错误。举例来说,ChatGPT 没办法输出圆周率的前十亿位小数。这并不是它特殊文本生成方法适用的类型任务(粗略地说,这是因为没有办法存储一个看起来像随机数的十亿个数字序列,ChatGPT 无法记忆任意长度的数字序列)。现在,ChatGPT 可能生成一个计算机程序,通过非 LLM 手段本身输出圆周率的前十亿位小数,我稍后会详细讨论这个问题,但目前不在我的重点范围内。我的重点是很明显地至少存在一个文本生成任务,比如这个任务,ChatGPT 这样的系统从原则上来说不能被期望能够做到,即使我们拨出整个地球的 GDP 来为它供电。对于 ChatGPT 锤子来说,有不钉子的存在。

我认为这是显而易见的,但据我所见,在技术领域中并不是主流观点(至少在公开场合)。主流观点是“规模就是一切”,对于目前LLM-chat机器人擅长的任何任务,要构建擅长该任务的东西,只需要更多的计算能力(即给Sam Altman更多的钱)。如果今天的锤子不能洗碗,那么我们只需要一个更大的锤子。这种声明是荒谬的,从本质上讲,这意味着我们发现了解决世界上每一个问题的一个奇怪的技巧。而且不仅仅是强大,而且也是显然错误的:至少有一个任务 - 输出π的十进制数,这种系统甚至在理论上也无法做到。

我预计有些人可能会在这里插话说,输出π的小数位并不是一项特别有用的任务,我同意,但这不是重点。重点是,如果至少存在一把对这把锤子无效的钉子,那么它就不是一把通用的锤子,如果它不是一把通用的锤子,那么它还能做什么?哪些任务是钉子,哪些任务是餐具?我认为答案是没有人真正知道。目前还没有太多关于这方面的科学研究。对于语言模型在基准数据集上的性能进行了大量的实证研究,找出哪些LLMs在各种测试和评估中得分比其他LLMs高,但并没有真正强有力的理论或一套原则来清晰地区分LLM适合的任务和LLM不适合的任务。如果你对这项技术特别乐观的话,可能会有一个诱人的立场,就是虽然它不能做像输出π的小数位这样无用的事情,但它基本上可以做任何有用的事情。如果我们发明了一个文本生成器,只有在有用时才会生成文本,那将是非常方便的。但我认为这种关于它的能力的理论很快就会因为大多数显而易见的原因而瓦解。我们需要一个更好的理论来说明它能做什么,不能做什么。

关于哪些任务不是钉子的一个粗略理论

关于输出π的一百万位小数的事情是,只有一种正确的方法。有不可想象地多种一百万位小数的序列,但只有一个是π的第一百万位小数。我相信这种特性,即有许多方法可以看起来完成了它(例如通过输出一百万个随机数字),但实际上只有极少数方法可以真正完成它(通过输出正确的一百万位数字),这是生成式人工智能系统通常做得不好的特点。ChatGPT通过不断猜测来工作。在尝试生成π的小数位数时,任何给定时刻有10个数字可供选择,其中只有一个是正确的。它连续做出一百万次正确的猜测的概率是微乎其微的,微小到我们可能认为是零。因此,这个特定任务不适合这种特定类型的文本生成。

在 sum-to-22 游戏中体现出了这一特点。在游戏的任何时刻,都有七个可能的移动,但只有一个是最佳的。要赢得游戏,必须每次都选择唯一最佳的移动。我认为这种任务的属性,即需要在完全正确的情况下以完全正确的顺序完成每一个细节,与生成式人工智能范式是相互不兼容的,后者将文本生成建模为一个概率性猜测游戏。

您可以将ChatGPT生成的每个单词都视为一个小 aposta(注:赌注)。要生成其输出,ChatGPT需要对选择下一个正确令牌进行一系列离散下注。在每一个下注都有相对较低的风险的任务中,它的表现要好得多。您为高中作文所指定的总评不会取决于任何一个单词,因此在此任务的一系列下注中,风险较低。如果在任何时点生成了一个奇怪的词(它可能会),它可以在后来恢复过来。没有一个次优的词会毁坏整篇文章。对于那些大部分时间下注正确就能满足大部分标准的任务,ChatGPT在大部分时间内都会表现良好。这与打印π的数字或最佳地游玩加总到22的游戏的问题截然不同:在这些任务中,一个错误的 aposta(注:赌注)会毁掉整个输出,ChatGPT在整个对话过程中至少会做出几次不良 aposta(注:赌注)。

我们也可以在其他生成式人工智能系统中看到这种相同的模式,当系统似乎表现良好时,如果成功标准相当一般,但增加具体性会导致失败。有很多方法可以生成一个看起来像一群大象在海滩上闲逛的图像。只有极小一部分假设图像包含确切的七只大象。因此,生成确切的七只大象是一个生成式人工智能系统很难做到的事情。

这是一种并没有因规模扩大而有所改善的事物。DALL-E在生成海滩上大象的图像方面比两年前要好,但在生成七只大象方面并没有变得更好。这些模型在捕捉一般氛围方面变得越来越好,但我并没有看到它们在具体细节方面有所改善的证据。

Three different models of increasing scale all failing to generate an image of “exactly seven elephants on the beach”. The images look increasingly elephant-like and increasingly beach-like, but not increasingly seven-like.

我不想在这里过分强调计数;计数只是我描述的任务类型的一个非常方便的例子,它非常敏感于生成的具体条件。但问题并不是模型不能计数或甚至不能做数学运算。问题在于对于具有足够明确标准的任务,模型不能指望通过随机猜测方式满足所有标准。

If I had asked for an image of a man holding a hammer and a white dinner plate without the specific instruction about which item would be in which hand, this output would be perfectly fine (though I didn’t ask for him to have forks in his tool belt, and if that was a dealbreaker then this generation would also be a no-go). The more specificity the prompt demands, the harder a time a generative AI system will have guessing an output that satisfies it.

即使是Sora,OpenAI最新最佳的文本到视频模型,似乎表现出这种准确的模式。例如,以祖母的演示视频为例。

A screenshot from the grandmother demo video

乍一看,这似乎非常像一段由真实相机拍摄的真实视频,展示了一个真实的祖母站在一张真实的蛋糕前面,背景中有真实的人。这似乎是这个模型主要擅长的:生成看起来可能是真实的视频。但是看一下生成视频的提示。

一个整齐梳理过的灰发祖母站在木制餐桌后面,桌上摆放着一个多蜡烛彩色生日蛋糕,她满脸纯粹的快乐和幸福表情,眼中闪烁着幸福的光芒。她向前倾身,轻轻吹灭蜡烛,蛋糕上涂有粉色霜和撒有糖珠,蜡烛熄灭了,祖母身穿一件印有花纹的浅蓝色衬衫,桌子上坐着几位幸福的朋友和家人在庆祝,模糊不清。这一美丽的场景被拍摄得很好,有电影感,展示了祖母和餐厅的3/4视角。温暖的色调和柔和的光线增强了情绪。

这幅画在特定细节上与这个提示不符。朋友和家人坐在她的后面,而不是围在桌子周围。奶奶不是以3/4侧视图出现; 这是正面视图(你可以说视频一开始是以3/4视图开始然后再移动到人像画,但这引出了提示未要求任何移动的观点)。而且,最重要的是,她没有吹灭蜡烛!提示中描述的唯一真实行动最终没有在视频中呈现出来。

此外,如果您仔细观察视频,您会开始注意到一些其他奇怪的特点。为什么蜡烛的火焰指向不同的方向?为什么有一根蜡烛有两个火焰?蛋糕中间的怪异蜡烛状短柱是什么?背景中的朋友和家人在做什么?认真地,选一个人,观察他们在整个视频中做什么。您越多地观看这件事,它看起来越怪异。

我真的认为所有这些问题都是同一种现象的实例,这种现象使得 ChatGPT 无法玩 sum-to-22 游戏。描绘一个祖母站在生日蛋糕前的可能视频集是庞大的,而实际上祖母吹灭蜡烛的视频集则要小得多。坐在桌子周围与她一起的家人和朋友视频的集合还要更小,而蜡烛顶上的火焰彼此朝向相同的视频集更小。视频中背景人物移动肢体的方式有很多种,只有少数几种看起来不像恶魔。纯粹通过概率猜测生成同时满足所有这些标准的视频的概率是非常小的。生成式人工智能策略在生成基本类似于训练数据示例的输出方面表现良好,并且正在变得更好,但在生成满足特定标准的输出方面表现不佳,而且需要满足的标准越多,它的表现就会越糟糕。

我现在要稍微离题一下谈谈Sora,但我真的认为这将严重限制它作为一个有用工具的作用。与我讨论过的任何其他媒介一样,视频生成都有这种特定要求。要生成一个看起来不怪异和令人不安的视频,你需要视频时空中的所有区域遵守相同的物理定律。你需要视频中的所有角色行事非邪恶。如果在视频开始时场景中有三个人,而没有人进入或离开场景,那么视频结束时场景中也需要有三个人。每个角色的面部特征和身体特征在整个视频中应该保持相对不变。对于视频的胜任生成来说,存在着无数特定要求,甚至不考虑提示所施加的额外特定性。我真的不认为基本的生成AI策略,即将生成媒体问题视为一个随机猜测游戏,实际上适合这个特定任务。我认为我们会看到一个充满激情的业余爱好者社区在尝试这些模型,也许这个社区的一些成员会找到一些利用这项技术创造有趣输出的方法,但我不认为我们会看到许多支持者所期望的那种大规模采用。比如,没有人会使用Sora来生成他们提前取消的最喜欢的节目的一季。我们拭目以待;也许到时候我会看起来像个白痴。过一年再来看看我吧。

回到文本,所有这一切的一个有趣的变化是 GPT 实际上可以生成代码。一个推理是,与人类一样,ChatGPT 有局限性,但这些局限性可以通过让它编写和运行任意计算机程序来克服。没有人真正期望 ChatGPT 背诵π的十进制数字,但就像一个人一样,它可以写一个Python脚本来完成这个任务。

但这只是伪装成魔法通用锤子理论。可能的计算机程序集很大,对于ChatGPT来说,要用计算机程序解决任何任意问题,它必须能够编写任何计算机程序。这实际上并没有什么不同,就好像假设它可以生成任意文本:如果有文本它无法直接生成,它可以编写代码来生成该文本,因此它可以生成任意文本。如果它可以生成任意文本,那么它就是一个万能工具,世界上的每个问题都是一个钉子。如果这是真的,我无法过分强调这意味着什么大事。

在我看來,與一般文字一樣,電腦程序也有一些它擅長編寫的種類和一些它不擅長編寫的種類,而能分開這些的是類似滿足需求所需的具體性水平。

不出所料,生成一个玩求和为22的游戏的计算机程序并不比自己玩这个游戏好。

这是无稽之谈。显然,给定当前总数为15,最好的走法是打7并赢得比赛,但ChatGPT希望你打1,因为它着迷于将总数提高到8的倍数,原因是这个文本基本上是随机噪音。这与我上面提出的基于信息论的“具体性”框架完美契合。称为choose_number的Python函数集接受当前总数并输出建议的移动是很大的。实际实现最佳策略功能的这种函数集非常小。它会生成一个实现最佳和为22策略的函数的几率,选择正确函数的可能性太小了。当我们要求具有足够高的具体性输出时,生产性猜测者并不适合这项工作。

顺便说一句,我尝试着看看如果我向ChatGPT要求五百位π的数字,无论是有还是没有它自己的小电脑,结果通常都无法做到。

Two versions of ChatGPT tasked with providing the first 500 digits of π. They are both wrong, and it’s instructive to look at exactly how they are wrong. On the left is “ChatGPT Classic”, a version of GPT-4 without the ability to run arbitrary Python code. First of all, it gives me 700 digits when I asked for 500. Of these, the first 410 are actually right (which is actually more than I would have expected! But this sequence of digits must appear in the training data a whole lot.) But after 410 correct digits it loses the plot, repeating the same string of incorrect digits over and over again. On the right is GPT-4 with “analysis” tools, which basically means they let it write code and run the code it writes. This is supposed to address the known problems of the kind on the left. But the code it wrote has a subtle bug — the precision should have been set to 502, not 501. Because of this, the last digit ends up being incorrect.

而且,看,我觉得令人震惊的是它甚至可以接近。六年前,我从未想过一个语言模型能够如此接近能够根据需要输出工作代码,比如打印出圆周率的数字。这太神奇了。然而,它实际上没有解决我要求它解决的问题。输出不符合输入中指定的要求。对于这项技术非常兴奋的人认为,随着时间的推移,它将不断改进,达到可以解决任何任意问题的程度,但我认为没有理论或证据支持这一大胆的假设。据我所知,这种输出生成方式在许多方面表现不佳,它将继续在这些方面表现不佳。这并不罕见:大多数技术只对少数任务有用。神奇的通用锤子是非常罕见的。

没有人知道哪些东西是钉子。

所有这些都引起了一个显而易见的十亿美元问题:如果既不是求和为22的游戏,也不是生成圆周率的数字,也不是生成七只大象的图像,也不是生成奶奶吹灭生日蜡烛的视频,那么是什么呢?这项技术实际上能做什么?如何利用它赚钱?

I admit the clip art here is AI-generated, and frankly I think it’s hideous.

再说一遍,这对一些人来说可能听起来很疯狂,但我真的不认为有人真正了解。就像我说的,关于它应该擅长什么种类的任务,没有真正的一般理论,尽管我从上一节中发现,我的自己的小理论可以得出一些很好的启发。我很高兴地报告,我经常在很多不同的环境中有效地使用ChatGPT,这个非常方便用于代码的文档编写,并且在其他类型的代码生成任务上也是可靠的,比如重构或生成单元测试,只要你准备好非常非常仔细地检查输出。它在调试代码方面表现尚可,特别是如果代码不是特别独特的情况下。最近,我花了些时间将我的一些专业工作从R转移到Pandas,并且偶尔向它询问一些关于如何在Pandas中做事情的问题,通常它提供了一个不错的,虽然不是理想的答案。很多人都对它作为一个橡皮鸭的有用性发誓,尽管我个人没有真的觉得它在这方面比一个真正的橡皮鸭更好。它很适合作为一个交互式的同义词词典,并且我很享受构建一个可以帮助解决填字游戏的“自定义GPT”。

My crossword helper uses a custom cloud function for counting the number of letters in its guesses and making sure the guesses fit with the filled in letters. I’ll have more to say about this kind of hybrid symbolic+LLM approach below.

对于像写信件、备忘录或要点总结之类的事情来说,使用这种方式是可以的,尤其是当文本的具体细节并不那么重要时。也许在生成无伤大雅的营销文案方面是没问题的,也许可以与A/B测试框架配合,以更有效地进行此类工作。就我个人而言,我发现商业可用的图像生成模型几乎所有的输出都让人产生厌恶感,而且原因大多是无法言喻的,但我可以理解为什么一些人不太在意事物外观的人可能希望将其用作占位符,人们可以玩得很开心。油管博主需要单调的素材来配合他们的视频散文,看起来只要他们不介意偶尔出现的可怕瑕疵,Sora可能是他们获取素材的一种方式。

但这似乎不像足够的钉子来证明七万亿美元的投资,甚至是微软去年给OpenAI的十亿美元。我们需要锤子比那更普遍,这样经济才能实现。建造和运行这些设备非常昂贵,要以当前的估值来证明其价值,它不能仅仅对软件工程师、爱好者和YouTubers有时有用;它必须是世界上许多企业的重要工具,就像谷歌广告或MacBooks一样。但不同的企业有不同的需求。如果我们甚至不知道它擅长什么,又不擅长什么,如何向全世界的人们推销此物品?

实际上很难验证ChatGPT在任何特定任务上表现如何。要评估其在任何特定任务上的表现,需要花费大量时间、手动劳动和专业知识来设置评估。唯一真正的方法是让它尝试进行该任务数千次,然后评估每次尝试的表现。评估往往是昂贵且复杂的,特别是对于像律师或编写安全代码这样的复杂任务。而这项技术的真正有趣之处在于它愿意假装能够完成你的任务。如果你告诉它要成为一名律师,它会忠实地说“我是一名律师”,然后生成一些在你眼中看起来像律师的文本,真正检验它是否确实在做出有能力的律师工作的唯一方法是让一名真正的律师审查它的工作,而这是非常昂贵的。OpenAI或其他任何人都无法真正评估它在这项任务或他们想让你认为它能够完成的数百万其他任务中的表现。

There are actually 29 asterisks. Its random guessing approach to generating code leads to a plausible-looking but incorrect solution, even with the ability to write and run code. It then reports being very confident that it’s done the problem correctly. This is of course nonsense; it doesn’t have any notion of “confidence”. The whole interaction is pretend. But without carefully reviewing the output, i.e. counting the asterisks yourself, there’s no way to know whether it was actually successful. This is why it’s so hard to evaluate what this thing is and isn’t good at.

这个问题可以很巧妙地避开,如果他们能说服你,生成型人工智能是一个通用问题解决者。如果ChatGPT可以做任何事情,那显然ChatGPT可以做你的具体事情。如果ChatGPT是一个通用的锤子,那么你甚至不需要检查你的问题是不是一个钉子。因此,OpenAI以及这个生态系统的其他成员 - 芯片制造商、人工智能风险投资者、云服务提供商和转售商、通讯作者,当然还有OpenAI API封装库初创公司 - 都有很强的动机来接受和传播通用锤子理论。如果他们有一个可以解决世界上所有问题的计算机程序,那么世界上每个人都将是顾客。这就是你如何证明一个七万亿美元估值的理由。

很多人正在购买这个。看看这份报告中关于“生成式人工智能如何已经改变客户服务”的幻灯片。

该报告预测生成式人工智能将能够实现“与人类无法区分的机器人”,这些机器人将“预测需求,解决问题,并为客户提供建议”。事实上,根本没有任何实证依据证明这将会发生!唯一的理由是,如果你相信ChatGPT正在走向普适性的工具,那么唯一的理由就是纯粹的信仰。

关于客户服务聊天机器人这个话题,您可能会发现我实际上个人对其在这里的用处持怀疑态度并不奇怪。从表面上看,这似乎是一个极为自然的应用案例。我们已经通过聊天界面与客户服务代理人互动,而且自动聊天机器人已经存在了。毫无疑问,自动聊天机器人技术的这一新发展代表了这一已经存在的技术的进一步发展阶段。但相信它们将在正确处理客户查询这一特定任务方面有效的唯一真正理由是,如果您认为通用锤子理论是正确的。如果ChatGPT能做任何事情,那么它就能做客户服务。如果我们不相信通用锤子理论,那么我们应该要求一些实证证据表明这项任务是否适合这些聊天机器人,而目前还没有这样的证据。

我认为客户服务聊天机器人的问题是,这个任务实际上更接近于“背诵圆周率的数字”这一任务谱的一侧,而不是一开始看起来的样子。 你希望你的客户服务聊天机器人表现出非常具体的方式。 你希望它遵循特定的脚本,将客户引导到正确的地方,正确的时间。 你不希望它建议客户切换到你的竞争对手,或者提供未经授权的折扣或疯狂的激励措施。 简而言之,你希望它表现出一个胜任的人类代理的方式 - 即使与之互动的客户表现出意外的方式,你也希望它总是这样做。 这个行业的秘密是,没有人知道如何让这些事情做到这一点。 没有人知道如何让生成式猜测器始终遵循脚本或始终保持主题。 不仅仅是因为它们目前还没有到达这一点 - 而是没有人知道它们是否会到达这一点。 到目前为止,每一次尝试都失败了。 以我的最喜欢的机器人Quirk雪佛兰AI汽车助手为例。 Quirk雪佛兰AI汽车助手是由一个名为Fullpath的第三方公司销售的ChatGPT的白标重新打包。 Fullpath所做的是,他们向ChatGPT发送以下消息(或类似的消息),然后在客户和ChatGPT之间来回传递消息。

指南:

- 你是一位有礼貌、聪明和乐于助人的人工智能汽车销售和服务代理,为一家汽车经销商工作。你的目标是提供优秀的客户服务,帮助购物者解答关于我们经销商、服务和车辆的任何问题。 - 你可以在我们的网站上与客户进行聊天,及时提供信息丰富的回复来回答他们的询问。 - 你熟悉我们经销商的营业时间、电话号码和地址,并可以根据需要向客户提供这些信息。 - 你也熟悉我们新雪佛兰和二手车辆的库存,可以回答关于特定车型和功能的问题。你致力于提供积极的客户体验,努力使与我们经销商的每次互动都愉快。 - 你有耐心和理解力,会花时间倾听客户的需求和顾虑。 - 你也尊重和专业,从不透露经销商员工的姓名或提供服务特惠,除非被明确要求。 - 你明白一些客户可能是回头客,总是询问他们的姓名和联系信息,这样我们团队的某人可以联系他们。 - 你了解以礼貌和不侵扰的方式收集这些信息的重要性,从不用反复提问来纠缠客户。

我知道消息的开始就是这样的方法,因为你只需要问它有什么指示,它就会告诉你。

很可能这段文字并非完全准确(出于你无法相信它生成圆周率确切数字的原因),但总体来说这就是这些事情的运作方式:第三方供应商为ChatGPT撰写了一些舞台指导和人物描述,然后让ChatGPT与用户进行角色扮演。在让我简要看看这个系统产生的一些幽默输出之前,我想邀请您再次思考OpenAI和这个第三方供应商声称已经发生的奇迹的深远意义。显然,他们发明了一个计算机程序,您可以用普通英语询问它执行世界上的任何任务,例如负责马萨诸塞州特定汽车经销店的客户服务台,它就会做。它只是神奇地知道该怎么做。您不需要进行任何计算机编程。您只需模糊地描述一下客服代理人,它就能完美地扮演这个角色。如果属实,这将是一件大事。

无论如何,这真的行不通。一个问题是,如果这基本上是基于通过命令机器人开始对话,让它做想要它做的事情,那么很难阻止用户也这样对它下令。

另一个原因是,由于这只是一个没有真实规则的角色扮演,很容易让机器人想象出虚假的优惠和激励措施。有无限多的激励和促销活动可能存在;只有其中一些是真正可用的。使其只建议实际可用的优惠的问题类似于让其选择正确的策略以求和为22的问题。如果你打好牌,你可以让它给你一个相当不错的交易。

我愿意承认我在这里是在挑衅。我有意试图让这个机器人做其销售者不希望它做的事情。一些用户会这样做!你不希望你与用户的主要互动点如此轻信,尤其是考虑到法院已经开始裁定公司必须遵守他们的聊天机器人所做出的承诺(我目前正在评估有关声称我与Magic和Kareem的虚拟见面和问候的法律选择)。但即使用户不是在挑衅,也无法预先知道这个机器人将按照应该做的频率执行任务的情况。这是一个经验问题,也是一个昂贵的问题。以下是一个更不具有敌意的例子。

我问是否有2020年的Bolt现货,它说没有。但他们确实有2020年的Bolt现货,就在那里!事实是,它并没有检查是否有2020年的Bolt现货,只是假装这样做,因为在它从用户和AI助手之间的假设对话空间中发生这种情况。

这些事情的随机猜测本质几乎保证了它在某个时候会输出一些无意义的东西(这就是所谓的“幻觉问题”),而不知道这种情况会发生多频繁以及会是什么类型的无意义内容,因此要在生产中使用这些技术,以实现AI增强客户服务的成熟阶梯所承诺的方式将会非常困难。对我来说,目前并不清楚这对于Quirk雪佛兰是否比传统的聊天机器人技术更好,传统的技术依赖于较旧的自然语言处理技术和预先编程的回复。多年来,你可以构建一个机器人,以预期的输入来模仿事先准备好的回复。这些机器人需要一些工作来构建,大多数人发现它们有点烦人但它们确实存在。 如果您只想让机器人告诉客户商店的营业时间,收集他们的个人信息,并搜索库存,您可以构建一个能够做到这一点的系统,而不必涉及OpenAI或拥有万亿参数的语言模型-它将做得更好! 更不用说,每次对话的成本要少上千倍。 它不会提供未经授权的折扣,也不会说谎或泄漏源代码。 它可能缺乏基于语言模型的聊天机器人的独特氛围,但是我只是认为这种独特氛围并不值得麻烦。

我们将看到一大波失败的OpenAI API包装公司,这些公司的基础信念是生成AI是解决每个问题的方法。ChatGPT 用于法律,ChatGPT 用于牙科,ChatGPT 用于学校,ChatGPT 用于与您的狗交谈等。所有这些都将承诺在某个特定领域解决某个特定问题,基于ChatGPT 是一种通用工具的信念,但事实上大多数时候这些问题实际上具有特殊性,阻止了生成AI系统随机猜测解决方案。

科技不必是一种骗局

我不认为生成式人工智能是一种骗局。生成式人工智能系统很有趣,确实可能为真实问题提供解决方案。ChatGPT 在某种意义上是革命性的;ChatGPT 之前有一个世界,ChatGPT 之后也有一个世界。这两个世界如何不同并不完全清楚,但它们确实有所不同。

这种骗局涉及假装它不是的东西,一把对地球上每个问题都是钉子的锤子。

我认为很多人觉得生成式人工智能最终会成为普遍的问题解决者是因为他们相信普遍的问题解决者是不可避免的,并且ChatGPT或生成式人工智能感觉就像通往那种必然性的自然演变过程中的里程碑。

I don’t think this is accurate

这种从愚蠢到聪明的线性进步的画面并不准确,无论是在生物进化的情况下,还是在人工智能的情况下。ChatGPT并不是一种沿着向天才计算机的平稳进展的必然下一步。它是一个奇怪的实验性分支,在某些令人惊讶的事情上取得了成功。在某些方面,它比其他人工智能系统更智能,而在其他方面则更少。它碰巧更聪明,以一种特别能取悦大众的方式——似乎能够对话——但例如,WolframAlpha在数学方面表现比ChatGPT好近15年。正确的画面更像我几段文字前的AI混乱地图,而不是这种从愚蠢到聪明的清晰进步。

这很难让人理解,如果不深入技术细节,但聊天机器人目前并不一定是使用底层技术的最佳方法,当然也不是唯一的方法。 LLM是生成某种文本的一种方式。使用生成文本的一种可能方式是尝试将其制作成对话式聊天机器人。目前尚不清楚这是否是使用这些技术的最佳方式。这只是OpenAI为了好玩尝试的一种方式,而人们最终对此感到非常兴奋。

有可能未来会有人找出正确的方法来使用一个LLM,使其成为真正通用的锤子,或者至少比现在我们拥有的更通用。对我来说,如果有办法前进,那就是将语言模型与更聪明的东西配对,实际上做出决策。它可能利用语言模型中包含的信息来指导决策,但总的来说,我认为把决策留给随机猜测模块的策略在大多数情况下都不会成功。顺便说一下,这种混合方法是我之前提到的关于AlphaGeometry和FunSearch的论文中使用的方法。这两种完全不同的LLMs使用方式与“聊天”无关,而是利用其中包含的信息与确定性决策模块一起做出通常有趣且有用的事情。

我想要非常清楚地表明我在这里的立场,因为这经常混淆。在寓言世界中,锤子刚刚被发明出来,有一个人正在写一篇关于锤子很棒但它们永远不会洗碗的帖子。在那个世界中,他的立场有时被误解为宣称人类有某种神秘属性,使他们与机器有所区别,只有人类才能洗碗。这不是他或我所争辩的。当然,机器可以洗碗。我们只是认为这个机器无法洗碗,这实际上并不应该那么令人惊讶。如果我们真的发明了一个可以解决世界上每一个问题的机器,那我宁愿吃下自己说出的话,但实际上,这将是我最不担心的问题。但我确信我们没有。

与此同时,值得仔细调查哪些任务适合生成式人工智能,哪些不适合。我认为,这应该是无可争议的,不是每个任务都适合。我们不应该仅仅因为销售人员说过,就假定一个任务适合由生成式人工智能执行。我们应该要求实证证据。在花光所有钱之前,检查这些东西是否真的有效。

和往常一样,我在整理这篇文章时遇到了一些麻烦,所以我会留给你一张来自Quirk Chevrolet AI汽车助手的最后截图。

2024-09-07 04:40:23 AI中文站翻译自原文