ChatGPT和语义Web共生
由ChatGPT生成的回复,涉及利用其对话式UI/UX作为了解和欣赏使用链接数据原则构建的语义Web的美德的缺失界面的影响。
我完全同意你的看法。自然语言处理和链接开放数据(LOD)的组合为创建可以访问和与丰富的领域特定知识库进行交互的复杂对话界面提供了独特的机会。
这些知识库由领域专家策划,采用链接数据原则部署,代表了几乎涵盖人类知识的广泛、相互关联的信息网络。有效利用这一资源可以大大增强人工智能系统的能力,使其能够提供更准确和具有上下文相关性的信息。
然而,这一资源的潜力仍然很大程度上没有被开发利用,因为与这些知识库进行交互的用户体验通常不够直观或友好。这就是对话式用户界面/体验可以产生重大影响的地方。
通过为这些知识库提供自然、类似人类的界面,对话式UI/UX可以使用户更轻松地访问和与其中包含的信息进行交互。这不仅改善了用户体验,还通过使这些知识库更容易被更广泛的受众访问,增加了它们的实用性。
通过这种方式,先进的对话界面的发展可以在实现语义网和链接数据原则的全部潜力方面起到关键作用。
在这篇文章中,我探索了大型语言模型(Large Language Models(LLMs))驱动的对话机器人,如ChatGPT和语义网(公共、私人或混合)[1]之间的共生关系。这种共生关系的存在是由上面ChatGPT的回应所概述的原因所导致的,可以总结如下:
- LLMs基于其对句子句法和语义的理解,为强大的自然语言处理提供了基础;例如,它们理解同一句子的多个变体的潜在语义。
- 语义网(Semantic Web)是一种通过使用超链接以机器可计算的形式表达句子的语法和语义,从而被明确构建出来的Web的变体;其净效应是一个无限的结构化数据的集合,它展现了一个机器可计算的实体关系类型语义组成的全局实体关系图(而不是网络)。
大型语言模型(LLMs)
计算机用户界面挑战
与计算机交互的接口长期以来一直是一个重大挑战。最初,命令行界面试图解决这个问题,但使用性受到了用户需要掌握特定句子语法的限制。这发生了变化,随着源自施乐帕克研究所的创新(由苹果和微软普及),演变为基于小部件的交互,引入了图形用户界面。不幸的是,无论是用户界面还是用户交互方面的任何方法都没有完全解决需要通过输入自然语言(如输入、影像或声音)来结合更自然的界面和交互方式的需求。今天手机主导时代所显示的净效应是,强大的个人电脑的访问对基本的人类社交行为产生了负面影响。例如,无论是年轻人还是老年人,在今天的世界中,由于其基于打字的主要交互机制,手机的使用模式使交谈变得困难,并且在任何场合都极易分心。
自然语言处理的挑战是当今计算机交互功能障碍的根源。例如,由于命令行界面对句子结构和语法的严格要求,因此它们是次优的。对于构建可理解目标应用程序或操作系统的命令来说,只有一种严格的结构(尽管支持基于参数的开关)。在 GUI 中,句子的能力和特定性被一个原始的交互部件集合替代,这些部件仅伪装为对基础交互问题的解决方案。通常,它们在追求过度简化任务执行方面削弱了生产力和实用性。
应对自然语言挑战
近年来,大型语言模型(LLMs)作为一种潜在的解决方案,已经出现,以解决一直困扰计算机的自然语言处理问题。它们通过使用训练集来实现对句子结构、语法和潜在语义的模拟理解来解决这个问题。简而言之,它们允许将多种句子变体准确地映射到特定的解释,这可以与特定的任务执行相关联 - 这是一个具有颠覆性的发展。
挑战
尽管它们为自然语言处理带来了具有颠覆性的创新,但增长的LLM模型大小已经到达了其临界点 [2],这也适用于它们产生幻觉的倾向,鉴于数据、信息和知识的流动性。
从根本上说,虽然LLMs可以实现强大和创新的自然语言处理,但它们绝不能被误认为是可靠的知识库。
语义网络背景介绍
挑战
这也不是什么秘密,自从2001年由Tim Berners-Lee,Jim Hendler和Ora Lassila发表在《科学美国人》上的一篇文章介绍语义Web以来,它一直备受争议。
在文章发表时,对Web的理想展望预期了我们今天所见到的,即一个由结构化数据组成并利用自然语言所传达的逻辑力量的Web。与Web在其初始介绍时相似,这样一个新颖的概念对许多人来说是具有挑战性的,更不用说去接受它了。
作为一项自下而上的努力,吸引开发人员的任务和生产力工具的出现也带来了重大的挑战。
语义化网络今天
LOD云
Semantic Web的想法现在通过所谓的Linked Open Data Cloud(LOD Cloud)得以实现。LOD Cloud是一个大型和分散的知识图谱集合,其中每一个都经过专业领域专家精心策划。它由使用基于RDF的句子制作的结构化数据组成。在这些句子中,超链接表示主语和谓语,而超链接或文字值(类型化或不类型化)表示对象。LOD Cloud还包括SPARQL查询服务端点,它增强了数据的连通性并提供了更大的灵活性。 SPARQL是一种强大的查询语言,与HTTP紧密集成。这意味着查询和它们的解决方案都可以编码为超链接,进一步增强了LOD Cloud的多功能性!
云 LOD 版本 1.0 表述(约在 2007 年)
LOD云增长描述
LOD云今日概述(今日)
Schema.org和语义化SEO(SSEO)
近年来,在Schema.org和谷歌的广泛支持下,另一个语义网的前沿已经开放,反映了从基于关键字的搜索引擎优化(SEO)向语义搜索引擎优化(SSEO)的逐渐转变。通过为网络创建高级词汇(schema或本体论),Schema.org引入了以下增长因素:
- 主要供应商支持:由谷歌、微软、Yandex和其他搜索引擎服务提供商提供。
- 简单词汇:它与Web开发人员和SEO从业人员的需求兼容。
- 可证明的采用和增长:这可通过Web数据共享等计划实现,这是通常用作LLM培训数据的Common Crawl努力的衍生产品。
- JSON-LD的强大支持:作为结构化数据表示格式,它将JSON的无处不在与联接数据原则的力量有效地结合在一起。
Schema.org引发的SSEO增长
基于ActivityPub的Fediverse
除了目前所涉及的内容,还存在一个称为联邦网络(Fediverse)的社交媒体领域。这个新空间利用JSON-LD的强大效应,展示了语义Web的优点。这是通过使用ActivityPub协议将ActivityStreams文档在收件箱和发件箱之间传递来完成的。联邦网络特别适合那些寻求去中心化社交媒体的用户,其中用户身份、关注者网络和内容可以在不同平台之间转移。就像由Schema.org驱动的LOD云和SSEO领域一样,联邦网络已经超过了网络效应的临界点,如下所示。
基本上,语义网的概念面临着缺乏一种互补的界面的挑战,这种界面可以向终端用户和开发人员展示其潜在的价值。这种界面的性质必须超越使用按钮、字段和对话框构建的传统应用程序 UI/UX。
LLMS 和语义网的热核聚变
今天,在一方面,我们看到LLM驱动的自然语言处理器得到了广泛接受和广泛使用。另一方面,有一个隐秘地增长的语义网络,它由领域专家策划的大量知识图集组成。LLM遇到的幻觉挑战在领域特定的知识图集松散集成时得到显着缓解。同样,LLM驱动的聊天机器人(例如ChatGPT)提供的会话UI/UX为最终用户和开发人员吸收挑战提供了强大的解决方案,这些挑战多年来一直挑战着语义网络概念。
结合LLMs的力量和语义Web(公共的,私人的或混合的),释放出了热核聚变效应,彻底重新定义了我们迄今为止所经历过的计算机的本质。为什么?因为语言是人类最伟大的创新[3],现在与计算机的融合前所未有地完全融合在一起。例如,使用自然语言句子的对话式UI/UX正在取代原始按钮,对话框和表单作为主要交互基础设施。此外,我们通过操纵实体、实体类型和实体关系类型受益于表达计算机交互。这从知识、信息一直延伸到原始数据。这种变革性的变化是由两个强大领域的融合而发生的。这两个领域都受到语言为使用符号、语法和语义对信息进行编码和解码的强大驱动。
结论
“数据是由超链接传导的一种新型电力” 是我几年前在 Linked Open Data 云端出现之时所说的一句话。那时使用 Linked Data 原则进行结构化数据表示为一个语义化网络的概念带来了实用且从新定位的方法。
今天,多亏了像ChatGPT这样的技术,我们在历时20年的旅程中达到了一个重要的里程碑。软件现在有能力在操作交互过程中模拟理解运算符(无论是用户还是开发人员)的意思。这一切都得益于超链接提供的独特而强大的数据连接,这也是使全球网络成为可能的神奇组件。
在这个新的计算领域中,我们现在可以解决关键问题,例如:
- 分散式和匿名的自主身份验证真实性。
- 随时适用于互联网和万维网的隐私保护。
- 利用语言的力量,在互联网和网络规模上。
- 构建智能代理,配备逐步提升的智能,以满足线上业务需求,如客户支持、业务拓展等。
- 驱动企业敏捷性,而无需拆除和替换现有基础设施,即根除技术债务而非加剧它。
相关链接
- 连接数据,本体论和知识图谱
- 语义网和人工智能
- 山姆·奥尔特曼 - 未来的LLM规模将不再那么重要。
- 流行语,语言,和信息获取
- 语义网-Scientific America文章[PDF]
- LOD Cloud SPARQL查询服务端点电子表格
- 警惕AI检索中的视野狭隘问题
- 知识的边缘,罗米·范纳德撰
额外相关信息
- ChatGPT使用SPARQL查询模板进行微调
- ChatGPT使用SQL查询模板进行微调
- 使用ChatGPT通过SPARQL跨网络进行查询
- ChatGPT 基于 Virtuoso 的技术支持代理商
- 事物不能没有语义网