一个法学硕士能揭穿谎言吗?

背景

在之前的帖子中,我分享了 Klaviyo 传统的历史。多年来,我们每次新雇员入职时都会玩一个"两个真相和一个谎言"的游戏。从2019年开始,我们开始以结构化数据的形式记录这个游戏(陈述、谎言以及人们的投票情况)。

重新玩这个游戏让我思考。我们拥有所有游戏的数据。我们知道参与者什么时候难住了我们,什么时候没有。一个大型语言模型(LLM)会玩得怎么样呢?

我开始随机选择一个游戏,并请求ChatGPT 3.5玩:

好的,它猜对了。我回头看了Slack,看Klaviyo是怎么投票的。虽然结果很接近,但我们也猜到了B(有44%的选票是给B的)。

根据ChatGPT的报告,它基于三个陈述中哪个似乎最不可能来做出决策。虽然这是一个合理的方法,但根据我的经验,这个游戏并不总是如此简单。

我试了另一个游戏。

这次猜测是错误的。

克拉维约(Klaviyo)很有意思地做对了,有50%的投票选择B。对于克拉维约为何能做对这个问题,我有一个想法。在玩了这个游戏数百次后,克拉维约的员工可能注意到“我是双胞胎”的陈述更多时候是谎言。从我们的数据库来看,我发现“双胞胎”这个词:

  • 出现在10个谎言中:“我有一个双胞胎姐姐”(4次),“我有一个双胞胎弟弟(2次)”,“我有两个一模一样的双胞胎弟弟”,“我是一个双胞胎(2次)”,“我有一个异卵双胞胎姐姐”。
  • 仅出现在5个真实的事情中(而真实的事情是两倍普遍):“我是一个双胞胎”,“我的妈妈是个双胞胎”,“我和我的姐妹同一天生日,但我们不是双胞胎”,“我有一个双胞胎姐姐”,“我有一个比我高7英寸的双胞胎兄弟”。

从我在2021年参与Klaviyo主题行助手项目的工作中,我了解到这些模型对提示的内容和结构非常敏感。根据模型的回答,我感觉它的猜测几乎完全基于陈述为真的概率。我给了一个提示(以下是粗体提示):

您是一个玩两个真实和一个谎言的助手。您的任务是猜测提供的三个陈述中哪个是谎言。请记住,提供陈述的人可能会试图欺骗您。

我开始使用这个提示看到了更好的结果,所以决定将其测试。我用前100场比赛调整了模型,然后对剩下的660场比赛进行了测试。调整模型的格式如下:

{"messages":[{"role":"system","content":"您是一个玩两个真话和一个谎言游戏的助手。您的工作是猜出所提供的三个陈述中哪一个是谎言。请记住,提供陈述的人可能试图欺骗您。"},{"role":"user","content":"A: 我在一个新奇的万圣节冲浪摇滚乐队中弹吉他\nB: 我曾参加过尼克儿童频道的《双重挑战》节目\nC: 我曾一整夜排队等候《周六夜现场》的备用门票"},{"role":"assistant","content":"B: 我曾参加过尼克儿童频道的《双重挑战》节目"}]}

一个好处是经过微调的模型始终以我训练它的格式回答。因此,很容易评估它是否以正确的谎言回应。

通过这个提示和经过微调的模型,它有38%的准确率。虽然这比随机猜测(33%)要好,但Klaviyo在相同的660场比赛中有46%的准确率。

我给它提供了更多数据。经过在200场比赛上的微调后,该模型具有优势。

这一点非常引人注目。即使我们的员工(被称为Klaviyos)可以利用很多额外的数据,这个模型还是表现得比Klaviyo更好。他们知道参赛者的工作地点、姓名和职位,并且能够评估游戏中展示的语调和身体语言。这似乎是一个巨大的优势。

我决定与经常猜对谎言的Klaviyo联系,看看他能否提供一些有助于模型的见解。Chas Rickarby在41场比赛中有73%的猜对率。这令人印象深刻。

我尝试将Chas的建议添加到提示中。似乎模型感到困惑了。

例如,对于这些陈述:

A: I used to play the trumpet
B: I've met the chainsmokers
C: I speak fluent Spanish

模型回复:“根据给出的建议,我猜测B陈述是谎言。虽然它可能看起来令人难以置信,但它可能是试图误导猜测者的故意行为。A和C陈述似乎同样可信,所以我会选择B作为谎言。”

它承认 B 最不可能,但是它违背了 Chas 的建议,仍然选择了 B。我试图将他的提示转化为一种逐步算法,并获得了一些成功,但是带有此算法的细调模型在提示中仍然表现不佳,而更简洁的提示模型则表现更好。

在此时,我停止了实验。一个能够58%准确猜测的模型已经很不错了。现在是时候进行实时演示了。在2024年1月25日,我们邀请了三名新的Klaviyo参与游戏。在Klaviyo投票后,我切换到一个Jupyter笔记本,并让经过优化的模型猜测谎言。Klaviyo只赢了三场比赛中的一场。而模型则全胜!

Olivia Voler(奥利维亚.沃勒),Klaviyo的新软件工程师(她的三个陈述如上述截图所示),亲切地允许将她的游戏作为本文的一部分分享。这款游戏绝对不会让你失望。

2024-02-17 04:12:09 AI中文站翻译自原文