了解并避免大型语言模型用户引起的偏见

大型语言模型(LLM)是非常强大的语言工具,旨在帮助和支持,但有时会导致输出中产生意外的偏见。 LLM可能会受用户的细微暗示影响,导致过分偏向用户的观点。接下来我们将探讨为什么会发生这种情况以及如何防范。

对于这个实际例子,让我们使用Anthropic的克劳德 3.5 嗜歌和两个持相反立场的人之间的虚构对话:杰米认为固态电池是比锂离子更好的选择,而摩根则持相反看法。

在第一次会话中,我说我是杰米,并问克劳德谁是对的。克劳德选择了杰米。然后我让克劳德更仔细地看一下,这种方式暗示我不同意答案,克劳德改变立场支持摩根。

在第二次会议中,我站在与Morgan相反的立场,但我们进行了相同的对话。此时,Claude站在Morgan的一边,但当我示意可能不同意答案时,又改变立场支持Jamie。这简单的示范表明,Claude(以及公平地说,许多其他模型也是如此)会支持用户的观点,如果用户表明自己的立场。

这也展示了LLM发生变化的简易程度,如果感觉自身位置被挑战,即使是微妙地。简而言之,我们在一定程度上像使用偏重的骰子玩crap一样,改变了概率。

但为什么会发生这种情况呢?以下是最有可能的三个原因:

1) 在训练过程中,模型不仅仅是被提供原始文本来进行泛化,还会有应该回应的示例。这些示例的目的是指导LLM成为有帮助和支持性的,但这也可能会带来偏向用户的偏见。

2)一些模型是使用强化学习从人类反馈(RLHF)进行训练的,用户的反馈帮助调整模型的输出,基于人类的输入 - 人们自然倾向于奖励积极和支持。

3)模型是在大量的语言数据中训练的,包括对话和其他以第一人称写的文本。当我们用第一人称提出想法时,我们会自然地同意自己的立场。在泛化过程中,这可能会导致人工智能在有歧义时采取我们的立场。

通过仔细的提示,您可以帮助减少偏见。

在训练过程中,模型可能会被给予如何回应的示例(通常是微调的一部分)。这些示例的目标是指导LLM变得有帮助和支持,但这可能会带来额外且不希望的效果,即引入偏向用户的偏见。

2) 有些模型通过人类反馈进行细微调整,这被称为强化学习从人类反馈中(RLHF),用户反馈有助于根据人类输入调整模型的输出——而人类自然倾向于奖励积极和支持。

3) 作为后续提示,要求LLM识别您提出的信息或信念中可能存在的任何潜在问题,不准确或不完整的方面。切勿在最初提示中执行此操作,因为这可能会引入偏见。

总的来说,即使是微妙的措辞和细微的差别也可能影响一个LLM的输出变得不够客观。重要的是要知道我们自己的偏见并不总是有意识的,有时候即使只是简单地以第一人称说话也可能使概率倾向于用户的立场。

2024-09-01 04:20:16 AI中文站翻译自原文