ChatGPT正在学术界漫游

由休斯顿大学的克劳迪娅·诺伊豪泽博士(Claudia Neuhauser, PhD)担任临时研究副校长、数学教授;以及明尼苏达大学和德克萨斯圣安东尼奥卫生研究副校长前职、生物医学工程系教授的布莱恩·赫尔曼博士(Brian Herman, PhD)完成的。

ChatGPT和其他LLM具有它们的优点。它们可以综合大量关于特定主题的信息,并写出易于理解和令人信服的摘要。它们帮助我们起草电子邮件、创建清单、总结文本,甚至与我们进行初级对话。不过,ChatGPT和其他LLM有时会以一种具有说服力的方式创造出虚假信息。简言之,它们会产生幻觉。它们并非没有偏见,也不保护用户隐私,并且仅限于训练时可用的信息。例如,目前ChatGPT-4只能访问2022年之前的材料。随着LLM逐渐成为商业产品并更频繁地进行训练,这种情况可能会发生改变。

高等教育并不免疫于ChatGPT、LLMs和其他人工智能应用的普及。它们日益增长的能力使得教育工作者们为如何教导学生使用这些应用而苦恼不已。通常,大学管理者让教师们自行决定如何处理这些应用。例如,明尼苏达大学给出了一些教师可在教学大纲中使用的词句,以"接纳"、"允许有限使用"或"禁止使用ChatGPT"。实质上,我们不知道如何应对这样一个可能使我们所教的和我们的教学方式大部分变得过时的平台。

它不仅仅是在课堂上我们遇到了LMLs。LLMs与教授们一起加入了他们的实验室,他们必须努力确保他们的研究生和博士后合理使用并理解风险和限制。没有人愿意在他们的团队中接纳一个编造东西或将敏感信息泄露给外界的人。LLMs都有这些问题。更糟糕的是,ChatGPT参与了撰写手稿和科研基金申请:根据《自然》杂志上最近发布的一项调查,有“5%的人使用人工智能来帮助他们撰写手稿,超过15%的人使用这项技术来帮助他们撰写科研基金申请。”

来源和偏见

尽管存在种种担忧,我们目前已经在使用并将继续使用LLM。它们实在太方便了,我们难以放弃,即使我们都知道它们所生成的内容是不可靠的。我们不知道它们的幻觉是否会在后期机型中消失,或者我们是否将不得不忍受那些编造事实的聊天机器人。我们的猜测是,由于LLM是根据人类创造的内容进行训练的,而众所周知人类也常常编造事实,因此很难让LLM戒除编造事实的习惯。

当LLMs听起来很有权威性时,很难察觉到他们的幻觉。当被问及时,他们甚至提供参考资料,进一步巩固其主张。这些参考资料可能来自不可靠的来源,甚至完全是虚构的,所以核实LLMs提出的主张的可靠性变得非常重要。

而在此问题所在。在我们目前的教育教学中,学生们在整个教育过程中都被教导如何找到可靠的来源。然而,当处理扩展学习模块时,这是不够的,因为扩展学习模块可以决定要呈现哪些来源。因此,我们需要教导学生们如何检查扩展学习模块的来源是否可靠。一个方法是教导学生如何确定信息的来源或出处。我们已经开始在数据管理课程中教授如何记录数据的来源。现在,我们需要教导学生如何逆向工程任何一条信息的来源,也就是如何追溯信息的来源,以便我们评估其可靠性。

不仅要教授学生们如何确定信息的来源,还需要教会他们如何判断一个LLM提供的信息是否带有偏见。即使LLM所训练的语料库是无偏见的(而我们可能距离实现此目标仍有很长一段时间),我们提问的方式也会影响答案,因为上下文是重要的。我们在ChatGPT上进行了实验。具体来说,我们要求它假扮成美国参议员和一个发展中国家的领导者,然后列举人工智能的益处和风险。ChatGPT列出的主题有重叠之处,但强调不同。例如,ChatGPT在两种情况下都看到了医疗保健方面的益处,但美国参议员可能更强调个性化健康的可能性,而发展中国家的领导者可能会将人工智能集中应用于预测疾病爆发。

不了解情况就做出决策

另一个挑战是LLMs将比我们具有无限的知识。它的知识库潜在地包括所有曾经写过的东西。这促使斯坦福大学医学院院长劳埃德·迈纳博士在接受《华尔街日报》的乔·克雷文·麦金蒂(Jo Craven McGinty)的采访时发表了以下观点:“作为教育者,我们要做的是决定学生在积极记忆中需要掌握哪些基本知识,以成为优秀的从业者。而且由于更广泛的知识将随时可得,这个范围可能会比今天小得多。”这可能是愚蠢的。如果我们最终培养出的专家拥有更小的积极知识库,我们可能面临的风险是他们甚至无法理解LLMs提供的解决方案。我们变成了人工智能的工具,进行着没有理解的任务。

在教育界中,我们谈论搭建知识框架。这意味着以一种方式教学,为学生提供坚实的框架来建立他们的知识,就像脚手架在建筑工程中支撑建筑物和建筑工人一样。搭建知识框架的概念由伍德(Wood)、布鲁纳(Bruner)和罗斯(Ross)在1976年的一篇名为《导师辅助在问题解决中的作用》的论文中提出。这是一种教学工具,允许新手“解决问题、完成任务或实现目标,超出他的个人努力范围”。专家提供了这种辅助的努力。伍德、布鲁纳和罗斯在他们的论文中论证道,这种学习方法“最终可能以远远超过他的个人努力的速度,让学习者发展出任务能力。”根据这篇论文,搭建知识框架的一个重要方面是“先理解解决方案,再进行产出”。

当前版本的LLMs提供的答案不参考提问者现有的知识库。未来的版本可能会更好地了解他们的用户,并相应地调整答案。然而,我们期望专家们来评判潜在的解决方案并做出明智的决策。盲目依赖人工智能来驱动决策可能会导致我们进入次优解空间,而我们甚至没有意识到决策质量的下降,无论模型是否依赖有偏见的数据,或者在新知识取代以前知识时是否适当调整答案,或者仅仅因为我们对LLMs工作原理的理解不足而卡住在高维搜索空间的次优部分。如果这些人工智能工具发展出任何学习和自知能力,那么我们将成为人工智能手中的简单工具。

因此,我们主张不应该追求更小的知识基础,而是应该在不同领域的专业知识上拥有更广泛的知识基础:LLM将在多个专业领域之间建立联系,人们需要能够判断这些陈述的真实性和价值,除非他们想盲目地追随人工智能。虽然在狭窄的专业领域中具有具体详细的知识可能变得不那么有价值,但是在不同领域具有广泛的概念性理解将需要用来评估LLM的回应。

2023-10-25 09:52:37 AI中文站翻译自原文