介绍Wordalisations:数据的自动解释

随着TwelveGPT开源的发布,我解释了为什么词组化将成为未来大型语言模型的重要用途。

ChatGPT发布将近两年后,商业应用大型语言模型面临两个主要挑战。

1,语言模型仍然会说很多不真实的话。

基于这项技术构建可行的产品已经被证明是困难的。

让我们想象一下,如果我们不相信山姆·阿尔特曼说的GPT-5将会比GPT-4有巨大的进步,或者相信大型语言模型的能力会随着计算机性能的提升而不断扩大,就像创造克劳德的团队所认为的那样。让我们考虑这样一种可能性,即解决1和2的方案不在于增加计算机性能和给这些公司大量资金,而在于我们人类自身的创造能力,去理解这个世界...

Screenshot from Twelve GPT Eductional. You can try it here.

这种信念贯穿了我在过去一年里运用LLM在足球中的方法。与其对更多数据进行密集训练,我们(在Twelve football)建立了自己的足球游戏数学模型(利用我们与俱乐部合作的经验),然后使用现有的语言模型来解释这些模型告诉我们的内容。这是解决挑战1和2的非常不同的方法,不仅在足球中,还可以在各种应用中应用。

在本文和相关的Github存储库中,我概述了如何创建我开始称为wordalisations的内容:数据的事实表示。我从可视化中得出了wordalisation这个术语:正如数据科学受益于能够更清晰地可视化数据中的模式一样,通过对数据进行wordalization,我们可以更清晰地理解数字告诉我们的内容。

为了开始我们的这个想法,让我们看一些示例。这是来自Twelve自动生成的一份阿森纳边锋Bukoyo Saka的比赛报告摘要(查看完整报告)。这是来自TwelveGPT的专业版本。

在这个词频分析中,所有的文本都是自动生成的。标题指出了他在上个赛季在完成(将机会转化为进球)上的弱点,而下面的文字解释了为什么他可以被认为是多才多艺和爆发力强。可视化展示了他在某些度量方面与其他球员的比较(以两种不同的方式)。词频分析解释了我们应该如何解读这些度量。

字化是建立在仅包含事实正确陈述的基础上的。要了解我们是如何做到这一点的,请考虑我们如何衡量球员的射门威胁(威胁对手禁区的能力)。我们首先查看球员带球进入禁区的频率、他们在禁区接球的频率以及其他指标的基础数据(这些在完整报告中有详细说明)。然后我们对所有球员(使用加权平均值)根据这些指标进行排名,以建立射门威胁质量。接着,我们进行三个步骤。第一步是用言语描述总体质量和指标(如差、一般、良好或优秀),第二步是创建一个简短的书面培训集,解释这些指标在足球术语中的含义,第三步是提供我们想要看到的报告类型的示例。然后,所有这些步骤的输出结果都会被输入现有的大型语言模型中,以获得最终的字化结果。

这里有很多细节我都省略了(要真正深入了解,你就得开始使用我们的开源版本),但我想强调的主要观点(关于上述挑战1和2)是,这个过程中没有涉及构建更大的语言模型。它涉及使用我们自己的建模技能和对特定学科领域的知识(在这种情况下是足球)来利用已经存在的大型语言模型(在这里我们使用ChatGPT,但Claude,Llama-2或Gemini同样适用)。人类创造力是关键!

无论能够被视觉化的事物也能够被用文字表达。我们也可以描述空间和时间中的模式,就像我们一篇比赛报告中的两个例子所展示的那样。

这些文字描述了利物浦在最近一场英超联赛中击败曼联的不同方面。它们捕捉了比赛中的重要细微差别:利物浦之所以获胜是因为他们的防守工作以及他们在中路和右路最危险。即使读者对诸如xG(图中使用)这样的概念不完全理解,如果他们是“足球精通者”,他们会理解从数据中得出的结论。读者可能不完全同意,许多专家都集中在曼联球员卡塞米罗的两个错误上,但他们会更好地理解数据告诉我们关于比赛的情况。一个词云是一个主观意见(在这个意义上,我们决定将什么放入模型是重要的)基于客观数据(利物浦确实进行了传球到上图中所示的最后第三方)。

词汇化的可能性是无穷无尽的。我在这里展示的只是我们在过去一年里在Twelve建立的工具的一小部分,用来解释足球数据。而且还有许多其他的应用领域。我在乌普萨拉大学的研究团队正在研究从人格测试到社会经济数据的词汇化。商业应用一旦出现,将会非常有趣看到它们如何影响工作场所。像麦肯锡或普华永道这样的管理咨询公司目前对于“人为制造”的财务或商业数据的词汇化收费高昂。心理测量公司则向客户收费以“解释”人格测试的结果。我猜想这些专家所做的许多工作都可以通过词汇化方法实现自动化。

为了帮助其他人进入wordalisations,我们发布了TwelveGPT开源。下面的屏幕截图显示了我们在Soccermatics课程的一部分中建立的前锋模型如何评估2017/18赛季的彼得·克劳奇。

它确实用文字捕捉了克劳奇独特的技能组合!

现在由你决定。如果你想要使用这些方法,起点是阅读“自述”文件,它提供了TwelveGPT开放源代码的概述。但如果你想要更快地深入了解,我建议你订阅Twelve社区,那里你将获得我的Masterclass视频的访问权限,其中我将解释不仅如何建立像这样的侦察报告,还有比赛报告和转会模型。

Some of the Masterclass videos demonstrating these methods

在十一月期间,Twelve Community将继续举办一系列实践研讨会,我们将一起探讨这些方法。如果您能加入我们将会很棒。

我真的很期待看到其他人在网络上分享他们的足球和其他单词游戏。玩得开心!

2024-09-17 04:10:58 AI中文站翻译自原文