ChatGPT将来能否擅长数学?

研究语言模型如何解决数学问题

ChatGPT中文站
Source: Matthew Willis

随着像ChatGPT这样的人工智能聊天机器人的兴起,一个关于人工智能能够取代知识型劳动者的问题也被提出。

知识工人与数学

知识型工作者包括劳动力的一部分,他们的主要效用是在解决问题和做出决策方面运用逻辑的才能。这个工作群体包括律师、银行家、顾问、学者和分析师,最广泛地涉及。

一个知识工作者的工具可能从Excel到数学再到文字本身都有。所有知识工作者的共同点是他们的价值来源,就是他们能够进行分析和构建逻辑论证的能力。

对于许多知识工作者来说,日常工作包括将场景和假设转化为某种数学模型。

顾问将对市场规模的假设转化为营收模型。投资银行家将财务报表和对增长的假设转化为打折现金流模型。

主要问题

在考虑人工智能是否能替代知识型工作者时,一个关键问题是人工智能能够理解和产生多少数学推理。

如果人工智能能够像先前所描述的那样建立数学模型,那么很有可能许多知识工作者的角色会被降低到事实校对者,即验证人工智能的答案,而不是自己进行分析。

ChatGPT数学

为了开始探究这个问题,我首先询问了ChatGPT它的数学能力,并特别问了聊天机器人它会错的问题类型。

聊天机器人列举了它所遇到的一些问题类型,包括复杂的数学证明和智力问题等。

ChatGPT中文站
Prompt: What are some simple math problems you know you would get wrong?

然而,我意识到这个列表远远不能全面反映ChatGPT的数学缺陷。

在测试了几个基本数学问题后,我要求ChatGPT告诉我π的前十位数字的总和(答案是39)。

而聊天机器人提供了以下解决方案:

ChatGPT中文站
Prompt: What is the sum of the numbers in the first 10 digits of pi?

逻辑是正确的 - 取圆周率的前十位数字,然后逐一相加 - 但实际计算是错误的。

语言模型中的缺陷

事实上,ChatGPT和聊天机器人在解决数学问题方面很困难,因为语言模型工作方式和数学解决方案的本质之间存在根本性差异。

语言模型是以概率方式工作的,使用自己的先前输出和训练数据生成响应。然而,数学解决方案只有一个正确答案。由于语言模型的输出是以概率确定的,而数学解决方案只有一个解决方案,因此ChatGPT和其他语言模型经常会预测错误的答案。

让我们通过上面的派十个数字的问题来分解它。

不是通过逐个相加数字来确定求和式3 + 1 + 4 + 5 + 9 + 2 + 5 + 5 + 3的确定性解,而是ChatGPT在询问自己一个不同的问题:

如果输出中的先前单词是“3 + 1 + 4 + 5 + 9 + 2 + 5 + 5 +3 =”,下一个单词应该是什么?

为了回答这个问题,ChatGPT依据其训练数据进行了安慰,很可能缺少这个确切的总结。被迫进行外推,该模型生成了一个最佳猜测值38,比真实答案39少一。

语言模型会改进吗?

有一种假设被广大媒体和公众所持有,认为像吞食更多训练数据后自动变得越来越强大的明胶数据怪兽ChatGPT一样。

ChatGPT中文站
Source: Pxfuel

尽管这种假设是相关的,但它只捕获了部分故事,尤其是当涉及到语言模型解决数学问题的能力时。

实际上,考虑到语言模型自然工作方式与数学解决方案的本质差异,语言模型的基本机制必须发生改变,才能使其数学能力得到巨大提升。

在不久的将来,语言模型中的数学改进可能源于更强大的提示方法。

房间里催促的大象

提示是指向语言模型提问或查询的方式,而其对应的提示工程则是优化这些查询以提高语言模型输出质量的过程。

这个领域的研究正在蓬勃发展,主要来自人工智能巨头谷歌。

谷歌基于科学的语言模型Minerva正在经过科学数据训练,可以作为了解提示对量化推理问题的好基础模型。

研究人员使用语言模型测试了多种问题解决技术,概述如下:

小样本启发

少样本提示是人工智能的练习问题等效物。与直接询问语言模型问题答案不同,可以预先提示模型类似的问题。

假设我们想要一个语言模型以π为单位给出直径为8的圆的周长。我们可以先给模型一些例子,比如给出直径为4或直径为2的圆的周长。

这种提示的目的是让模型学习问题解决的模式,然后利用这种模式来解决问题,尽管有些解决方案的模式可能比较难学习。

思维链触发

思维链提示是在少样本提示的基础上加入了解决问题的过程,这些过程被嵌入到语言模型的预提示中。在计算周长的问题中,预提示会包括如何将直径乘上圆周率得出周长这一详细信息。这些额外的细节帮助模型明确地学习这个规则。

记事本提示

草稿本提示是AI相当于展示其工作的语言模型。而不是要求简单的答案,一个人会要求该模型概述其解决过程的每个步骤。转而模型可以更好地发现错误。

2023-10-20 16:42:15 AI中文站翻译自原文