基思贾瑞特和最好的下一个令牌

爵士乐的自由即兴创作、LLM和创造力之间的关系

Keith Jarrett [photo taken from ECM Records website]
Keith Jarrett

在人工智能讨论中,通常会听到像GPT-4这样的大型语言模型(LLMs)被简化为一个简单的概念:基于前一个词汇或令牌来预测下一个词汇。这种表述暗示了一种无足轻重的特性,好像这些模型仅仅依赖于一个填满概率的巨大查找表 — 输入一个词汇,得到最有可能的后续词汇。但这种过度简化忽略了LLMs生成文本的深层复杂性,并忽略了这个过程与自由爵士即兴演奏背后的艺术性之间的类比,尤其是被音乐家如Keith Jarrett掌握的这种类比。

对于那些不熟悉的人来说,贾瑞特不仅仅是一位爵士钢琴家。他以他的长时间独奏即兴演奏而闻名,这些作品跨越整个音乐会,实时编织复杂的音乐主题。他最著名的录音《科隆音乐会》(1975年),是一个持续一个多小时的连续即兴演奏,每一个音符都显得是经过深思熟虑,但同时又是即兴创作。这是一个理解LLM在单纯的词语预测表面之外是如何运作的完美透镜。贾瑞特的即兴创作过程,就像LLM一样,不是简单的下一步预测;而是关于创造一个连贯、动态的故事情节,借鉴了大量以前的输入和背景。

The Köln Concert — a Keith Jarret masterpiece

不仅仅是一张查找表:LLM的深度对于AI社区之外的人来说,预测“下一个最佳标记”的想法可能听起来很简单,甚至是机械的。一个简单的概率表映射一个标记到另一个标记的思想可能会出现在脑海中,但这种方法会产生混乱、毫无意义的输出。LLM的实际机制涉及更复杂的方法:深度学习。

在培训阶段,LLMs 吃入大量的文本数据,不仅学习单词之间的表面联系,还学习语法、语义甚至象调和风格等更深层次的结构。它们创建一个高维表示空间,在这个空间中,单词、短语,甚至更大的结构如句子和段落都可以在复杂的关系网络中找到自己的位置。这个过程需要大量的计算资源,远远超过简单的查找。它涉及神经网络中数十亿个参数,通过一个可能需要在高性能GPU群集上花费几周甚至几个月的训练过程来调整。

一旦经过训练,模型就可以利用这些学习到的关系来生成文本,不仅考虑最后一个词或短语,还考虑整个上下文 - 有时甚至涉及几百或几千个标记。这类似于爵士音乐家通过独奏编织主题,参考早期的动机并不断发展。

上下文无处不在:爵士乐和文字中的即兴表演在爵士乐中,特别是在自由即兴的领域,上下文是创造力的支柱。像基思·贾瑞特(Keith Jarrett)这样的演奏者不仅仅考虑他所演奏的音符; 他从和声结构、节奏主题和早期建立的旋律想法中汲取灵感。他明白自己在音乐上所处的位置,并实时作出决定,决定接下来该往哪里走。正是记忆与创新之间持续不断的相互影响赋予了他的表演深度和连贯性。

同样地,LLM 不仅仅是基于前一个词来选择下一个词。它考虑到了更宽泛的话语。例如,如果要求一个LLM写一个关于龙和骑士的故事,当它达到故事高潮时,它会“记住”先前的情节 - 人物是谁,他们的动机可能是什么,以及环境是如何描述的。就像贾瑞特可能会在音乐会上早期引入一种蓝调情调,并在半小时后巧妙地回忆起来一样,LLM贯穿其输出的叙事和主题元素,创造连贯性和深度。

在贾瑞特的案例中,你可以在像不莱梅/洛桑音乐会(ECM 1973)这样的演出中听到这一点,在那里早期引入的主题会以转变的形式再次出现,让听众回想先前的时刻,同时又进化成新的东西。这反映了LLMs如何处理语言中的长期依赖关系,早期对话内容塑造出接下来的内容。

Keith Jarrett — Solo Concerts: Bremen/Lausanne (1973)

超越机械:连贯性的艺术关键见解是LLMs和爵士即兴演奏者不仅仅是简单地做出反应;他们实时创作,借助他们内化的背景。对于LLMs来说,这意味着利用大量的数据来创建人类般的反应。他们实现了研究人员所称的“新兴属性”——这些能力并非是明确编程进去的,而是源自训练数据的深度和模型的复杂性。

基思·贾瑞特(Keith Jarrett)的艺术性也是如此,它源自多年的学习和经验,不仅内化了爵士乐的标准曲目,还涵盖了整个西方音乐史。当他坐在钢琴前进行即兴演奏时,他的演奏受到无数小时的练习和聆听的影响,就像一个训练有素的LIM在几TB的文本上操作一样。他可以无缝地将巴洛克的赋格式段落转换为布鲁斯节奏,将不同的音乐观念整合成一个连贯的整体。

我选择了爵士乐这个音乐流派,因为今天它最能代表音乐家即兴表现能力。然而,事实是世界各地传统音乐都富有即兴性,其中包括印度北部的拉格音乐,中东地区的音乐(麦卡姆,塔克辛,格纳瓦),波斯传统如达斯加,日本的雅乐和能剧,西班牙的弗拉明戈等等。事实上,我们可以说音乐一直依赖即兴表演作为表达的基本工具。直到音乐符号的出现,重点逐渐转向基于事先编写的作品风格的表演。

Ravi Shankar

为什么重要:AI作为艺术,而不是工具将LLMs视为简单的下一个词预测器是误解它们的本质和潜力。这类似于将一位大师级的爵士即兴演奏者视为只是“演奏下一个音符”。在这两种情况下,魔力在于上下文意识,将过去和现在编织成新的东西,使当下有意义却根植于广泛学习知识的池中。这不仅仅局限于音乐;在人类对故事的内在热爱中,无论是通过音乐表达还是口头表达,都有一个共同的主题。相同的原则也适用于一个给孩子讲故事的人,边说边创作,始终建立在已经讲述的故事基础上以确保连贯性。他们用不同的重点调味故事,以增加情感,使其更加吸引人。最终,人类交流具有情感元素,增加了深度并使其更加迷人。

这篇文章旨在以一种突出表现出深度和复杂性的方式对LLMs和自由爵士即兴表演进行比较,这可能看起来像是简单过程。 它结合了技术解释和艺术类比,使其易于理解和引人入胜,同时为那些对人工智能有更深刻理解的人提供洞见。

2024-10-27 04:10:47 AI中文站翻译自原文