你真的又度过了一年而没有使用正弦或余弦吗?
为什么三角函数现在实际上非常重要。
我最近读了一篇帖子,强调数学中一些教授的科目如三角学在“现实世界”中并不相关。过去的一年里,这个发帖的人仍然没有在真实或虚拟计算器上按下sin按钮的需要。
佩特店男孩在描述他们所做的一切时,远远超越了他们的时代,他们将一切转化为直角三角形中对边与斜边的比值。
现在,我怀疑你很可能已经有幸玩过类似ChatGPT的生成性人工智能工具。你没有意识到的是,你们都是余弦相似度的受益者,我想是一群同为罪人(抱歉)。
那么为什么这个大型语言模型会使用三角学呢?三角形与寻找适合奶奶织的毛衣的感谢信中要放入的正确文字有什么关系呢?这是一个很好的问题,我猜你可能没有问,但因为你已经读到这里,我还是告诉你吧。
从根本上讲,余弦相似度衡量了两个向量在方向上的相似程度。如果你不熟悉向量,那么请继续阅读。如果你熟悉向量,那么可以跳到倒数第二段。
您可能听说过蚊子是疾病传播媒介,因为它们会从一种动物携带疾病传播到另一种动物。数学向量可以以类似的方式看待,描述了如何从一个地方到另一个地方。
作为一个简单的例子,向量[1, 2, 3] 可以描述一个人在花园中从一个明确定义的位置(比如烧烤架的基座)向前移动1米,然后向左移动2米,最后向上移动3米(希望它们能够在一个能够使用正确安全设备的高大树上)。这三个数字在数学上代表相互垂直的方向(一个花哨的术语,意为“彼此垂直相交”)。这些方向可以从烧烤架的角度写成[前进,向左,向上]。为了完整起见,负数代表相反的方向,所以[-1, -2, -3]表示向后移动1米,向右移动2米,然后向下移动3米。希望那个3米深的洞里有个梯子可以爬出来。令人害怕。
现在假设有一只松鼠紧贴在树干上,距离我们勇敢的攀岩者在地面上的位置正好1米高处;它愣住了,惊叹地注视着攀岩者,对其对安全规定的严格遵守赞叹不已。
如果攀登者遵循向量[1,2,4],那么他们将会处在松鼠的位置。
为了让你省去推测这位攀登者和松鼠如何能够与烧烤架占据相同的空间点,就像某种薛定谔的树匠一样的思维上的思辨,让我们采用数学的把戏,将它们都转化成点,连同烧烤架一起。如果有帮助的话,你可以想象它们都吸收了皮姆粒子的剂量,所以与一米相比它们现在都很小。
当攀登者回到他们的原始位置时,我们就会有两个向量相对于代表烧烤底座的“点”(在数学术语中称为“原点”)。
原始到攀岩者:[1, 2, 3]
原始到松鼠:[1, 2, 4]
两个向量,[1, 2, 3] 和 [1, 2, 4],通常被视为从原点指向树上的攀登者和松鼠的箭头。
现在想象一下,有人要求你根据从烧烤架上所见的向攀登者和松鼠的方向之间的距离给出衡量。一个选项是测量向攀登者和松鼠的向量之间的角度。一个小角度对应着从你的视角上来看,距离“相似”。如果角度是半个旋转(180度或者π弧度对于已经启蒙的人或者τ/2对于开明的人来说),那么距离是“不相似”的,因为向量指向相反的方向。角度的余弦是一种将这些角度映射到一个数字的方法,这个数字对于指向相似方向的向量是1,对于指向相反方向的向量是-1。
余弦相似度实际上被用于GPT中,用来衡量代表标记或词部分的向量之间的角度。我们一直在使用的三维向量并不足以进行这种“嵌入”。实际上,它们使用的是(鼓掌声请)七百六十八个...不过等等,那只是针对GPT2。对于GPT3来说是12,888,对于GPT4来说是16,384。如果你每秒钟计数一次,要数到那个最后的数字需要超过四个半小时。请注意,这是GPT标记占据的“空间”,而不是该空间中的标记数量。一个三维向量可以表示花园中的数十个大对象。实际上,GPT4的16,384维空间中大约有50,000个标记。
有了这些。三角函数,如正弦和余弦,在课堂之外被应用于越来越重要的领域,如生成式人工智能。
阅读更多
ChatGPT正在做什么……为什么会奏效?由Stephen Wolfram所著