4+1 种不同的方式,像 GPT4 这样的大型语言模型正在帮助改善信息检索。

警告:我不是数据或信息科学家;这是我正在尝试学习的一个新领域。

ChatGPT中文站

大型语言模型(如GPT-3,GPT-4,ChatGPT和BERT)的崛起,极大地改善了最近几年的信息检索。借助它们的自然语言能力,这些模型使搜索引擎能够提供更相关和准确的结果,并通过新功能增强了整体用户体验。

事实上,这种情况发生的方式不止一种,所以在这篇博客文章中,我将列出一些主要的使用方式。

我们将讨论其他事项

1. 使用大型语言模型中的上下文嵌入来改善相关度排序

2. 仅使用生成AI /语言模型来生成答案

3. 将搜索/检索器与外部来源的上下文结合使用的问答系统,然后由生成器(例如,ChatGPT)生成答案。

4. 查询个别论文或“与 PDF 对话”类型功能。

ChatGPT中文站

1. 改善结果的相关性 - 语义/神经搜索

这是大型语言模型为搜索引擎带来的最低调且最不被注意到的改进,因为它们往往在幕后完成,对用户而言不可察觉。

语言模型的核心是生成统计模型,可以告诉您,在给定一系列单词的情况下,下一个最有可能的单词是什么。

基于Transformer神经网络架构的最先进语言模型能够实现接近人类自然语言的理解水平,对于解释搜索查询非常有用。

事实上,包括谷歌在内的许多搜索引擎都使用最先进的上下文/密集嵌入技术来自语言模型,如BERT,以改进相关性排名。

使用这样的语境或密集嵌入来进行相关性排名通常被称为语义搜索/神经搜索,与传统的词汇搜索/关键词搜索相比。

了解更多细节 - 您知道吗?来自最先进的大型语言模型的嵌入如何提高搜索相关性。

他们往往具有以下优势。

  • 语义搜索/中性搜索可以自动“理解”查询和文档的含义(通过嵌入),因此它可以匹配相关的文档,即使关键词不匹配。
  • 语义搜索/中性搜索考虑文本中单词的顺序。
  • 语义搜索/中性搜索甚至可以处理多语言查询/匹配。

无语言限制的BERT句子嵌入

它们的主要缺点是可能会拉出与查询没有许多共同关键字的文档,因为它们匹配“含义”而不是严格的关键字。

保持HTML结构,将以下英文文本翻译为简体中文:一个使用语言模型进行相关性排名的学术搜索引擎的例子是Elicit.org,它使用了一种句子转换器模型嵌入。

通过使用Paraphrase-MPNet-base-v2在向量数据库中存储标题和摘要嵌入,执行语义搜索;当您输入问题时,我们使用相同的模型嵌入它,然后要求向量数据库返回最接近的400个嵌入。

大多数系统并不完全使用语义/中立搜索,而是混合使用词汇/关键词搜索结果,并创建将两种类型结果合并的排名。其中一部分是为了可预测性(关键词搜索更可预测),另一个原因是计算速度/成本,因为实时计算大型密集嵌入或存储在数据库中可能很昂贵。

然而,我们会搁置这种大型语言模型的使用,因为即使搜索引擎实现了这一点,结果通常也只是链接到相关文档。

但是像OpenAI的GPT模型、GPT2/GPT3/ChatGPT/GPT4这样的大型语言模型也是生成式人工智能,能够生成答案,当我们将它们纳入信息检索时会发生什么呢?

信息检索模型和生成式大语言模型

ChatGPT中文站

2. 使用生成式大型语言模型来回答没有搜索的问题(极右列)。

自OpenAI推出了ChatGPT(甚至在GPT2和GPT3之前),人们就尝试着使用它来回答问题。重要的是要注意,尽管生成了答案,但并没有涉及传统意义上的查询匹配文档的搜索。

ChatGPT中文站

下面展示一个例子。

ChatGPT中文站

ChatGPT没有搜索关于我,它杜撰了很多事情,我希望我能那么出色!

到目前为止,您已经知道,大型语言模型倾向于虚构或“幻觉”,即使像GPT4这样的较新模型也不太可能出现这种情况。

为什么会发生这样的幻觉?

要理解为什么大型语言模型没有完美的召回率,重要的是要注意它们并未存储它们“看到”的所有训练数据,实际上它们只是通过神经网络(变压器)以自监督的方式从大量的文本中学习权重。

在“网络搜索”与“ChatGPT”之间的关键差异中,作者声称OpenAI的首席执行官Sam Altman表示:

ChatGPT更多地关于类似人类的认知,而不是提供或整合重复内容…… LLM(大型语言模型)不能始终重复——这对于网络搜索非常有用——但会导致产生幻觉,原因在于神经网络中没有单个训练数据以原封不动的方式存储。神经网络就是这样运作的,它们实际上是一种压缩/解压算法。

换句话说,大型语言模型擅长泛化/模式匹配,但并不意味着记忆答案或事实。实际上有些像人类。

与传统的数据库搜索不同,在传统搜索中,它被训练的文档中的单词存储在倒排索引中,而对于像ChatGPT这样的LLM,所有的训练数据都被丢弃,只有权重被存储。

有一些猜测关于这些大型语言模型中有多少学术内容、期刊被包含在内,但可以确定的是,Meta的Galactia.org副标题为“面向科学的大型语言模型”是仅训练于学术内容的,甚至具有自己的专门特征来识别。

  • 数学公式(LaTEX)
  • 代码
  • DNA (脱氧核糖核酸)
  • 化学化合物(SMILE)
  • 参考文献
ChatGPT中文站

以下显示了一个提示,希望能够使用参考完成它。作为类似于OpenAI的ChatGPT的生成语言模型,它正在构建中,您可以提示它,它将按照正常流程继续。

ChatGPT中文站

是的,你可以让它写一篇完整的科学文章。

当Galactia.org首次推出时,它允许您从网站直接运行提示,就像ChatGPT一样,但它是如此具有争议性,以至于在线Web演示仅持续了3天就被下架了。

你能猜到为什么吗?它和ChatGPT很像,它在它所写的文章中编造了许多听起来可信但是错误的虚假信息。今天你仍然可以免费运行这个模型,但你需要在你的电脑上下载这个模型并在本地运行。

这并不特别困难,只需要几行代码,但更大的模型需要更强大的计算机运行。

有人对双重标准提出抗议,因为Galactia.org引起了很多轰动,而ChatGPT则较少,但两者都产生了虚假信息。但我怀疑其中一部分是因为程度不同,更重要的是,Galactica被定位为一个科学生成系统,人们希望有更高的标准。

3. 具备搜索能力的生成式大型语言模型(中列)

ChatGPT中文站

正在变得流行的Retriever-Generator模型,如Bing+Chat、Perplexity。

正如我们之前看到的,使用ChatGPT或其学术等效Galactica.org往往会导致幻觉。

即使它没有,大型语言模型就像它的名字所示需要很长时间来训练,使用它来回答问题意味着它将没有当前信息。例如,截至撰写本文时,OpenAI的chatGPT和GPT4将无法回答2022年事件的问题。例如,如果您问谁赢得了2022年的世界杯足球赛,ChatGPT会拒绝回答,GPT-4通常也会拒绝回答,但有时可能会编造答案。

ChatGPT中文站
ChatGPT中文站

更糟糕的是,即使 ChatGPT 或 GPT4 给出答案,也没有办法检查答案。你可以要求参考资料,但也许那些都是虚构的!

那么,解决方案是什么?

正如许多人已经发现或独立想出的那样,解决所有这些问题的方法是加入搜索功能。通过创建“一个可以使用网络搜索来验证其答案的ChatGPT版本”,您可以找到比仅使用GPT-4更可靠的答案。

有时会使用技术术语检索增强的大型语言模型。

目前最著名的例子是Bing+Chat搜索。下面展示了它搜索适当的网页,然后提取并使用内容生成正确的答案。

ChatGPT中文站

它甚至显示您可以使用的链接/引用来检查答案。

在这次发布之前,另一个网络搜索引擎Perplexity.ai也可以使用,它将通用网络搜索与OpenAI的生成性语言模型结合起来生成答案。类似的还有You.com。

为更好地了解答案是如何生成的,让我们看一下我在Perplexity.ai上关于Google Scholar规模的问题。

ChatGPT中文站

结果出色,包括网页引用。但如果您点击查看源代码的按钮(方括号),Perplexity会显示更多详细信息,甚至可以看到用于生成答案的提取句子!

ChatGPT中文站

事实上,Bing+Chat几乎肯定使用类似的技术,通过使用不同文档的文本片段(有时称为上下文),而不是整个文档,来生成答案,但只有Perplexity会显示用于回答问题的确切上下文。

最近,OpenAI宣布ChatGPT正在获得插件来扩展其功能,并且在各种功能中包括访问像Wolfram Alpha(用于数学和其他功能),Python代码解释器等工具和网络搜索。

重要的是要注意这些系统首先是生成型的大型语言模型,但具备搜索的功能。它们并不总需要搜索。

例如,这里是我与Bing+聊天进行愉快交谈的地方,没有涉及到搜索。

像Bing+Chat一样,已经提到的Perplexity.ai和You.com也是能够搜索的LLM。

这些工具的学术版本是新推出的Scite.ai助手,它使用ChatGPT API作为语言模型,但搜索元数据(标题和摘要)和引文陈述/上下文以生成答案的相关文本。

Scite的早期版本提供了“提问”beta功能。那个版本和当前版本的主要区别在于,这个早期版本不会生成答案,而是会提取或高亮出它认为回答问题的文本部分。这有时被称为抽取式(相对于生成式)问答,参见Consensus.app。

scite.ai 助手

下面我提示scite助手 - “写一篇文章,解释为什么不能仅用Google学术进行系统综述”

ChatGPT中文站

与一般的网络版本类似,scite助手搜索并使用文档中排名靠前的文本片段,生成带有引文的答案。

我不会详细解释如何解释这些内容,只是说在这个答案中产生的参考文献有两种形式。

首先,它可能引用了一篇论文的摘要。

更重要的是,它可能会在引文语句中引用文本。当引用标记为粗体时,您可以确定这一点。

在第二种情况下,SciTE的答案来自论文作者所描述的另一篇论文或引文陈述。在这样的情况下,您依靠的是次要来源或进行间接引用,样式指南建议尽可能避免这种写法。我强烈推荐实际检查引文,以确保引文陈述的准确性。

类似于Bing+Chat,Scite助手并不总是在搜索。

ChatGPT中文站

scite.ai 助手无需搜索即可写诗

搜索还是不搜索,这是个问题。

由于Bing+Chat、Perplexity.ai和Scite助手都是全面成熟的大型语言模型,有时候可能会进行搜索,你可能会想知道它们如何决定何时进行搜索以及何时不进行搜索。

答案有所不同,例如OpenAI的未发布的WebGPT会复制人类搜索的演示。

Bing+Chat与“Bing Orchestrator”讨论了Prometheus系统。

因此,这些具有搜索功能的语言模型中的每一个可能在寻找答案的倾向上存在差异。

在实际表现方面,决定在某些提示下进行搜索可能会提高性能,例如,在其他类型的提示中,搜索可能会导致任务失败。

举个例子,我让Bing+Chat扮演一个对有看法的历史人物,而Bing+Chat搜索后没有结果并拒绝继续,而不进行搜索就可以完成任务,例如ChatGPT能够轻松满足请求。

4. 带有大语言模型的搜索引擎(左栏)

这些都是纯搜索引擎,或传统上所说的仅限搜索的问答系统。

这些工具不能完成编码、写诗等操作。

他们接受所有输入,例如搜索查询,尝试找到相关文档并提取答案。

这可以是来自文件(Consensus.app)的答案形式,也可以生成一段答案(Elicit.org)。

与新的必应+聊天不同,您在Elicit中输入的每个查询都被解释为搜索。大型语言模型用于生成答案(请参见左上角的文本)或可能用于提取有关个别论文的信息,例如主要发现、方法、地区等。

请点击这里查看更完整的评论。

Consensus.app也是另一个只能搜索的传统问答系统。

ChatGPT中文站

主要的区别在于Consensus.app与Elicit.org以及上述的每个例子不同。Consensus.app不会产生新的答案,而是直接从文本中提取实际的文本,而不是重写,并展示它认为是答案的部分。

该模型与上面的提取-生成模型非常相似,唯一的区别在于它使用一个“阅读器”(而不是生成器)来提取可能回答问题的文本部分。与使用生成器相比,它完全采用文本中的单词,不进行摘要或改述。

ChatGPT中文站

这个模型使用阅读器而不是生成器,因此它精确地提取文本中的内容。

这样可以避免产生更多的幻觉,但回答通常不太友好,因为如果文本中不存在,它只能提取精确的答案。

5.语言模型查询个别论文

到目前为止,这些例子涉及在多篇论文中进行搜索,但当然可以使用大型语言模型的自然语言理解和总结能力来对单个论文进行提问。

无论是Elicit.org与Scispace还是“Chatpdf”这一系列服务都可以帮助您查询个别论文,无论这些论文是否有全文索引或者您需要上传论文。

ChatGPT中文站

在Elicit.org上向个人论文提问

Scispace包括一个“副驾驶员”,您可以对要解释为您概述的句子进行高度筛选。

ChatGPT中文站

您甚至可以通过拖放数据图或表格,向副驾驶员询问并解释它们!

我也开始收到来自研究人员的查询,他们想通过ChatGPT这样做。

1. 查找 20xx-2023 年间 Journal X 中的所有论文。

2. 过滤到主题X

3. 总结每篇论文

使用ChatGPT直接进行这样的操作显然不是一个好主意,因为它可能不会“记住”期刊X中的所有论文。ChatGPT并不是一个正式的论文数据库,最多只能提供一些与期刊相关联的论文,就像人类只能记住期刊中的一些论文一样。

显然你想要使用传统的搜索引擎来可靠地搜索《期刊X》上的所有文章,然后将文本传递给ChatGPT或类似的大型语言模型进行总结。

Elicit.org将是理想的选择,因为它可以生成包含各种项目例如研究结果的表格,但目前似乎不允许按期刊进行检索。此外,它可能也没有期刊中论文的全文。

ChatGPT中文站

Elicit根据从论文中提取的信息创建一张研究表。

结论

我们正在极早期尝试将大型语言模型的能力融入到搜索引擎中。目前还存在很多问题,例如用户将如何使用这些功能,以及他们在新的搜索引擎中需要或期望哪些便利性。

例如,就用户界面而言,目前类似Bing+Chat、Perplexity和scite辅助的系统都更注重“聊天”,将系统生成的答案放在屏幕正中央,并提供继续聊天的可能性,而搜索结果则相对隐晦。

然而,对我而言,这是否是最好的方式还不清楚。另一种选择可能是将生成的聊天回答和传统的搜索结果结合在一起的用户界面,如果您不满意生成的答案,则可以使用它。

例如,DuckAssist计划将生成的答案放在纸张顶部,然后是传统的搜索结果,就像Google有时会在顶部提供即时答案一样。

ChatGPT中文站

You.com展示了另一种布局,生成的答案显示在前面,侧边栏包含搜索结果。

ChatGPT中文站

当然,也可以反过来,让屏幕主要部分显示传统搜索结果,而侧边栏显示生成的答案,类似于Bing工具栏。

我还可以想象其他可能性,比如让您能够查看搜索结果页面,选择五个您认为有趣的链接,并请求系统生成答案。

还有更多想法要到来...

写后注 - 当然,这种系统最重要的问题是它们生成答案的好坏或准确性。

随着我写作的时候,大部分的研究和测试还是专注于使用ChatGPT或LLM“裸”的形式,而对于将生成式答案与搜索相结合的AI动力搜索工具,例如Bing+Chat或Perplexity的有效性研究还很少。

examples of simplified Chinese text: 这里有两个例子。

评估生成式搜索引擎的可验证性

2. ChatGPT类生成模型能确保事实准确性吗?新一代搜索引擎的错误之处

2023-10-20 16:44:14 AI中文站翻译自原文