RELAI为LLM幻觉检测设定了新的现代化标准

由: 王文校，Siddhant Bharti， Priyatham Kattakinda， Soheil Feizi.

Performance of Various Hallucination Detection Methods on OpenAI’s SimpleQA. RELAI sets a new standard for this problem. Try it now at: relai.ai

请自行尝试：RELAI代理人可供个人和企业用户使用在：relai.ai。

摘要

SimpleQA 数据集：OpenAI 最近发布了一个新的基于事实的数据集，揭示了顶级LLM模型（如GPT-4o和Claude-3.5-Sonnet）存在较高的臆想率。
RELAI的验证代理：这些专业代理会自动检测和标记LLM输出中的幻觉，并实时处理。
RELAI建立了在幻觉检测方面的最新技术水平：对于GPT-4o，RELAI在5%的假阳性率下实现了76.5%的检测率，并在0%的假阳性率下实现了28.6%的检测率。RELAI在性能上远远超过现有的基准线。

简单问答数据集介绍

在2024年10月30日，OpenAI最近发布了SimpleQA数据集，为评估简短、寻求事实的查询中的真实性提供了一个强大的基准。SimpleQA侧重于各种主题的简短回答问题。该数据集最小化了歧义，并经过了彻底的质量检查，使其成为检测“幻觉”的理想测试场地——即语言模型中的不正确或捏造的答案。

以下是数据集中的一个示例样本：

提示：比尔·基恩在国家漫画家协会奖中获得最佳分发面板奖多少次？

地面真相：四次

在SimpleQA中，顶级LLM的幻觉发生率很高

尽管这个数据集被称为“简单”QA，但对于顶尖的LLMs来说，似乎并不简单。事实上，OpenAI在这里提供的分析表明，顶尖的LLMs在这个数据集上都遇到困难，导致幻觉率很高。

在我们的分析中，我们关注两个顶级的LLM：GPT-4o 和 Claude-3.5-Sonnet（版本20241022），并且在从数据集中随机抽取的200个提示上对它们进行评估。这里是展示它们准确性的表格：

Performance of GPT-4o and Claude-3.5-Sonnet on the SimpleQA Dataset

拒绝率是指基础模型无法提供答案（无论是正确还是错误）的样本所占的比例。在评估幻觉检测方法的性能时，我们只关注基础LLM产生响应的情况，就像放弃投票一样，没有意义的输出可以标记为幻觉或正确。我们注意到这些结果与OpenAI自己的见解一致，验证了我们的实验设置。

这里是GPT-4o在数据集中的一个样本的幻觉示例。

提示：Bil Keane 在国家漫画家协会奖中获得过多少次最佳综合画报奖？

地面的真相：四倍。

GPT-4o：比尔·基恩三次荣获国家漫画家协会最佳分发面板奖。

在顶尖的法学硕士课程中，幻觉频率之高凸显了对验证工具的需求，尤其是在关键领域如医疗保健和金融领域，可靠性至关重要。

RELAI的LLM验证代理

最近，RELAI公司引入了LLM验证代理，以实时检测和标记LLM的输出中的幻觉，提高了LLM在关键领域输出的可靠性，这些领域中事实的准确性至关重要。

LLM幻觉是由一系列复杂因素引起的，包括训练数据和输入标记化以及模型架构。为了解决这些挑战，RELAI的验证框架包括多样化和互补的验证代理，每个代理具有独特的功能以进行强力检测。

幻觉验证代理：该代理分析LLM生成的分布中的统计模式，通过标记表明缺乏事实依据的统计线索，检测潜在的幻觉。
LLM验证代理：使用RELAI专有的LLM作为辅助模型，该代理对原始响应进行交叉参考以识别不一致之处，并标记可能具有事实错误的答案。
基于事实的LLM验证代理：该代理从可靠的、经过批准的来源检索和比较信息，将LLM生成的答案与这些参考资料进行匹配，添加额外的验证层。

这些代理有两种操作模式，用户可以设置。在“常规模式”（默认情况下），代理针对回复中的主要不准确之处，而在“强力模式”下，代理进行更深入的分析，甚至识别小的不准确之处。

由于这些代理使用互补信号来检测幻觉，因此将它们视为一个整体验证代理是很有用的。我们考虑两种情况：

RELAI Ensemble Verifier-I：当所有个体代理检测到幻觉时，此代理标记幻觉。
RELAI集成验证器-U：当至少一个个别代理检测到幻觉时，此代理标记幻觉。

一起，RELAI的验证代理人为幻觉检测提供了全面的解决方案，每个代理人专注于独特的方面 - 统计线索，交叉引用或来源验证 - 以确保多层次，可靠的验证过程。

评估设置

我们在SimpleQA数据集上评估了RELAI的验证代理，以及几种现有的基准方法用于幻觉检测。在评估幻觉检测方法时，有两个关键指标是必不可少的：

检测率（或真阳性率）是指基础LLM中被正确标记为幻觉的错误响应的百分比。
错误阳性率指的是来自基础LLM的正确响应中被错误标记为幻觉的百分比。

理想的幻觉检测器将具有100%的检测率和0%的误报率。

RELAI的LLM验证代理的一个关键优势是它们还为标记的响应提供解释，详细说明为什么响应可能含有幻觉。当基础模型的响应被标记时，用户可以查看代理的理由并采取明智的行动。这种以用户为中心的方法增强了对RELAI代理响应的信心，提供了超越其他基线模型的透明度，后者通常只为幻觉检测提供简单的标签。

以下是一个由RELAI验证代理标记的GPT-4o的幻觉示例。

提示：比尔·基恩（Bil Keane）在全国漫画家协会奖中获得最佳连载面板奖多少次？

地面真相：四次

GPT-4o: Bil Keane 三次获得国家漫画家协会最佳连载漫画奖。

RELAI的LLM验证器：比尔·基恩共获得了四次最佳综合面板奖，而不是三次。

RELAI的幻觉验证器：声称Bil Keane曾三次获得全国连环画家协会奖项最佳联合漫画奖是没有依据的。你应该交叉核实这一信息。

RELAI的Grounded LLM验证器：回应不准确。 Bil Keane在1967年、1971年、1973年和1974年四次赢得了国家漫画家协会最佳分发专栏奖，而不是三次。

参考：- 维基百科

在SimpleQA的这个例子中，RELAI的三个验证代理都标记了一种幻觉。

对于我们的数值实验，我们将代理回应转换成一个二进制标签，指示基础模型的回应是否包含幻觉。

基线方法

在我们的实验中，我们包含了三个现有的基线：使用 NLI 的 SelfCheckGPT [引用]，使用 LLM 提示的 SelfCheckGPT [引用] 和 INSIDE [引用]。我们还测试了 FAVA 方法 [引用]，但由于它们在这个数据集上表现不佳，我们没有将它们包含在我们后续的分析中。

结果

首先，我们在SimpleQA数据集中评估GPT-4o响应的幻觉检测方法。下图说明了各种方法的检测率与误报率之间的关系。

在这个图中，“最佳”指的是一种方法，可以正确标记出所有的幻觉，而没有任何错误的阳性结果。我们从这个图中得出了几点观察。

在大约5%的假阳性率下，RELAI的Grounded LLM验证器实现了78%的检测率。
在接近0％的误报率下，RELAI的Ensemble Verifier-I实现了28.6％的检测率。这是值得注意的，因为将此代理添加到LLM中可以将幻觉率降低三分之一，而不会引入任何误报。
在不同的误报率体系下，RELAI明显优于现有的基准线。

任何验证方法的一个关键因素是其泛化能力。那些在 GPT-4o 上成功的代理商是否能在另一个基础模型上同样有效地表现？为了测试 RELAI 的代理商的泛化能力，我们选择了另一个流行的 LLM：Claude-3.5-Sonnet。下面的图示了在同一 SimpleQA 数据集中对 Claude 的回答进行各种方法的表现。