企业能够信任ChatGPT吗?

由Prathamesh Kalamkar和George Earle提供

(百分之百由人类撰写。)

在2023年初,三星限制了员工对ChatGPT的使用。员工们并不是存心,仅仅是用它来检查工作,但却无意中分享了敏感的公司信息。这可能对竞争造成损害 —— ChatGPT在这些输入的基础上可能会为竞争对手生成答案。另外,有一起案例中,无意的律师在民事诉讼中使用了ChatGPT凭空杜撰的假参考法案。他们被罚款数千美元。这些律师以为他们在使用一个搜索引擎;他们声称不明白它是一个生成工具。

尽管存在这些故事,但仍然有一些例子可以证明 ChatGPT 的有效应用。其中最显著的之一便是在客户服务领域,它有潜力改善客户咨询的处理方式。一家大型电子商务公司的一项已记录的案例研究中使用了 ChatGPT-4 聊天机器人处理客户咨询:该项目导致了答复时间减少 40%,客户满意度增加 30%。

ChatGPT,Bard和Chinchilla可能目前还不是家喻户晓的名字,但它们很快可能会成为如此。企业正以两种不同的方式研究生成式人工智能(有时也称为GenAI)和人工智能聊天机器人,如ChatGPT。首先,它被用于从风险投资基金、私募股权以及大公司的研发基金中获得投资。其次,它被用于业务流程,以改进产品并提高操作效率。然而,除非可以信任GenAI工具,否则它们将难以获得广泛采用,很可能仍然是位于研发团队和实验室中的实验性奇观。

尽管现在对GenAI的机遇已经引起如此多的兴趣,但担心信任问题可能看似过早。然而,必须认识到存在一个机会成本——不准确和滥用可能对组织产生无法轻易预见的灾难性影响。

到目前为止,数字技术一直被传统上视为可信赖,因为它被认为是确定性的。例如,一个Excel公式在执行时总是以相同的方式100%地执行,从而产生可预测且一致的结果。即使结果出现错误 - 由于实施问题、部署环境的变化,甚至是错误和故障 - 仍然有一种感觉,认为技术应该按照某种方式工作。然而,在Gen AI的情况下,事情是不同的;即使最乐观的炒作也承认它是不可预测的,它的输出往往是意料之外的。对于一致性的信任似乎不如对Gen AI能提供的各种可能性的兴奋重要,而且这些可能性似乎是瞬息万变的。

修复信任问题具有全球性的好处

当涉及到Gen AI时,我们需要认真对待信任问题。解决这个问题可以带来重大的全球利益。例如,一个名为“Jugalbandi”(意为紧密结合的双胞胎)的系统被用作GenAI聊天机器人的基础,帮助印度公民以自己的语言访问、学习和申请政府网站社会项目(以英文书写)。这 impressed 微软CEO Satya Nadella如此之深,以至于他说这一举措在“全球的每个角落”都释放了一种“赋权的感觉”。

理解生成性人工智能技术风险领域的业务影响

使用现有的HTML结构,将以下英文文本翻译为简体中文: GenAI存在三个主要的技术驱动的信任问题:

  1. 幻觉-当系统输出虚假或不准确的回应时
  2. 隐私 — 系统的学习过程无法区分公共信息和私人信息,存在将组织的私人信息分享给外部的风险。
  3. 道德渎职 - 人工智能系统能够生成有害指令或出现偏见内容。

人工智能GenAI属于有限记忆AI的一种,也被称为大型语言模型(LLMs)。它通过训练自然语言数据集,从这些训练数据或新数据中获得统计知识。其概率机器学习引擎会生成对问题或提示的回答。作为一个概率系统,它不会对相同问题产生完全相同的结果。这可能是一个非常有成效的结果——其输出的创造性使其非常有用。只要其输出真实、非抄袭且社会可接受,这就不会成为问题。

如上所述,Thoughtworks最近部署了一个LLM解决方案,用于创建一个权威的聊天机器人,以用户的母语提供有关政府项目的信息。由于准确性在这种情况下尤为重要,Thoughtworks明确创建了一个架构来管理和纠正潜在的错觉和不准确之处,以确保输出结果是可靠和可信赖的。让我们看看是如何实现的。

如何利用可信数据减少幻觉

在核心上,LLM旨在生成与人类写作几乎无法区分的文字。这使得它们成为创建可以以更加人性化方式与人们进行交互的数字产品和服务的极其强大的工具。

然而,幻觉有时会产生不准确的信息,从而削弱了LLM的有用性。在减轻这种风险方面,LLM所用于的用例或业务流程也是一个重要因素 - 是否有人在最终用户使用之前检查输出,或者GenAI的输出是否立即呈现给最终用户/消费者?

首先,我们来解决一下人工智能系统接收的信息如何导致不准确的回复。

LLMs 生成的信息有两个来源:

  1. 参数化知识
  2. 一个输入提示(通常由用户提供)

参数化知识是LLM在预训练中从数据集(如Common Crawl和维基百科)中学到的知识。可靠的信息也可以插入LLM的输入提示中。如果我们完全依赖参数化知识,产生幻觉的可能性就会大大增加。这是因为这些信息的来源可能不可靠或过时。然而,如果我们要求LLM利用输入提示中的信息来创建答案,产生幻觉的可能性就会大大降低。这种方法通常被称为Retriever Augmented Generation(RAG)。然而,你可以插入提示的信息量通常受到LLM的GenAI限制所称的“最大上下文长度”的限制。最大上下文长度通常从4k个标记(大约相当于六页单倍行距的文本)到32k个标记(大约相当于50页)不等。因此,选择适当的信息插入LLM输入提示中非常重要,以便能够用该信息回答用户的问题。

使用PostRAG架构来纠正生成式AI的技术风险领域。

下面的图表显示了我们所称为“PostRAG”参考架构,用于LLM技术驱动的对话应用程序,该架构利用真实信息增强了LLMs。我们相信这是解决GenAI幻觉的权威解决方案。(请注意,选择使用哪种LLM以及在哪里托管LLM超出了此架构说明的范围。)

它有六个层级:用户界面层、会话处理层、数据隐私层、数据获取规划层、LLM增强层和最后的LLM层。

ChatGPT中文站
PostRAG reference architecture

让我们更详细地看看每个层次。

用户界面层

用户界面组件可以与社交媒体平台、移动应用程序或网站集成。这个界面需要处理用户提供的语音、文字或视频输入,并随后向用户呈现其响应。

会话处理层

该层面处理的活动包括将语音转换为文本、翻译输入文本和将文本响应转换回语音。翻译的选择取决于权威文档的语言和应用程序支持的语言。

数据采集规划层

数据采集规划模块在减少幻觉方面发挥着特别重要的作用。规划模块通过使用用户输入中存在的领域上下文(关键词)来自行判断并识别相关的数据来源,包括文档、数据库、搜索引擎和应用编程接口(API),以便系统的其他部分能够组织出有效的响应,并确保权威、实用和准确。

换句话说,数据获取计划的主要任务是决定应该查询哪些数据源,以什么顺序以及每个查询所需的相关参数。通过告知LLM仅使用查询到的准确源数据引用作为LLM的输入提示来降低幻觉风险。输入提示中包含的指示也有助于减轻幻觉风险。

此规划模块可以以多种方式设计。一种方法是将有限状态机作为规划器的主要设计来实现,这样可以跟踪与用户的对话状态,并根据用户输入和对话历史进行状态转换。随着对话的进行,基于状态机的规划器会酌情地为LLM系统的其余部分识别或选择不同的数据源来使用。最近,LLM代理(如ReAct和OpenAI函数调用)在选择外部资源(如API)和合成结果以供LLM生成用户响应方面取得了有希望的成果。

LLM增强层

我们的LLM增强层负责根据数据采集计划进行数据采集。如果源数据以自由文本形式存在,则可以使用文本嵌入技术将其索引到向量存储中。

使用用户的输入可以进行语义搜索。通过计算用户输入(q)和来源数据(p)中的一段之间的相似度,可以得出两个嵌入向量的点积。这些嵌入向量可以使用像OpenAI嵌入这样的模型来创建。

sim(p,q) ∝ EQ(q)TEP(p) sim(p,q)∝ EQ(q)TEP(p)

如果数据源是结构化数据库,可以使用数据采集规划层生成的SQL查询来查询。可以使用搜索引擎的API获取外部数据。

接下来,运行数据采集计划后收到的数据将被发送到LLM中的Prompt输入,以生成最终的用户响应。这样可以确保我们为LLM的提示增加可信信息。

数据隐私层

通常情况下,敏感信息不应该离开组织的范围,这就是为什么在将其发送到云托管的LLMs之前需要进行边界数据隐藏的原因。此外,可以将此类敏感信息进行掩码处理,并存储在敏感信息存储中以记录和跟踪掩码操作。需要注意的是,如果LLM是私有托管的,则可能不需要进行掩码和记录操作。

LLM层

一个LLM的可信提示是通过将任务说明(用户的提示)、可信数据和先前用户/LLM对话历史相结合生成的。规划者制定的不断发展的对话历史和数据源决策有助于使用可信信息形成特定主题的临时知识边界或语料库,从而限制对话的范围,产生可信的输出响应。使用该提示从LLM获得的响应随后经过后处理生成用户响应。

使用PostRAG参考架构实现Jugalbandi Bot

本部分描述了思特沃克帮助开发的Jugalbandi机器人的架构。如前所述,它为印度公民提供了政府援助计划的信息;这个工具使得许多不同语言的公民都能轻松获得相同的信息。

ChatGPT中文站

所选择的UI层是WhatsApp,印度最常用的社交媒体平台。由于政府社会项目的源信息是英文的,所有的自然语言处理都是用英文进行的。用户的查询被转换为从语音到文本,并从印度语翻译为英文。转换是由巴什尼执行的,巴什尼是印度全国公共数字语言平台。

使用自定义规则在数据隐私层中对个人身份信息(PII)进行掩盖。数据收集计划是使用有限状态机创建的。根据用户查询,它创建一个计划以搜索政府社会计划的向量数据库,并找到最适合用户需求的计划。(更多关于用户状态机的软件细节可以在此处找到。)

所有关于政府社会项目的信息都是从其官方网站上提取,并使用OpenAI嵌入技术转化为向量。利用一种名为FAISS的开源库,对这些政府社会项目向量进行高效的相似性搜索和密集向量聚类。搜索结果随后展示给用户,用户可以选择他们感兴趣的特定政府社会项目。总之,通过搜索和政府社会项目信息来完成LLM扩充。

经过搜索或政府社会计划数据库得到的可靠信息被插入到LLM提示中。对话历史记录也被插入到提示中。使用这个提示得到的LLM回应经过后处理后发送给用户。文本回应被转换为音频,并且文本和语音回应都会展示给用户。

Jugalbandi系统在谷歌云上部署,利用基于容器的开发,使我们能够在更大的规模上在多个终端上运行我们的应用程序。它使用谷歌Looker作为BI工具进行仪表板设计,利用其建模语言创建一个受控的、可共享的指标库。最后,谷歌CloudSQL用于存储和数据持久化。

PostRAG如何减少数据隐私方面的顾虑?

数据隐私问题由数据隐私层处理。组织的敏感信息可能来自用户的输入或在LLM增强过程中产生。在将提示发送给云托管的LLM之前,有必要对敏感信息进行屏蔽。可以通过一组规则和/或训练定制的信息屏蔽模型来实现这一点。

PostRAG如何减少道德不端行为?

大多数商务聊天应用需要限制用户在一些感兴趣的领域中的对话;它们无法回答每一个问题。使用输入提示来确定LLMs的知识边界,以限制其在可信数据方面的使用,极大地减少了创建有害内容的机会。解析、修剪和削减LLM的输出答案,以消除由LLM产生的道德挑战的内容和散文,是另一种绘制边界的策略。

用于希望使用人工智能的组织的含义

我们发现的三个主要的信任问题——幻觉、隐私和对话表现——足够严重,需要设计出一个可以减轻甚至消除风险的GenAI系统。正如我们所讨论的那样,PostRAG是这样的系统。如果您开发或购买的GenAI产品没有以应对每一个风险为基础进行构建,将可能对GenAI的承诺以及公司品牌造成声誉损害。如果追求GenAI所承诺的回报只会逆转客户满意度评分、增加损失并导致品牌受损,那就没有任何优势。

免责声明:本文中所包含的陈述和观点属于作者本人,不代表Thoughtworks公司的立场。

最初发布于https://www.thoughtworks.com。

2023-10-20 17:17:39 AI中文站翻译自原文