自主代理的最佳LLM：准确性、速度和成本的比较

注意：本文是从locusive.com上原始发表的文章重新创作的。

Locusive为企业提供AI驱动的副驾驶员，使您的员工和客户能够轻松地从数据源获取所需答案，而无需打扰您的团队。虽然我们的副驾驶员让您能够轻松查询不同的数据源，但它在内部使用了许多数据管道和技术，其中最重要的是一种大型语言模型（Large-Language Model，LLM），用于支持整个系统。

LLM是大多数人工智能副驾驶和代理的大脑，选择在副驾驶中使用的LLM是实施自己的人工智能助手时你可以做出的最重要选择之一。选择错误会让用户沮丧，花费你金钱，更糟糕的是给你的客户提供糟糕的数据。最好的选择可以让你的客户获得快速准确的响应，而又不会花费你大量金钱。

今天，有许多LLM和LLM提供商可供选择，每个都有自己的优点和缺点。作为一家为其他企业构建AI副驾驶的公司，我们始终致力于优化产品的速度和准确性，因此我们分析了十种不同的LLM系统，以找到适合我们助手的最佳系统（或系统组合）。

在本文中，我们将提供我们分析的结果，包括方法论以及对未来变化可能性的思考。

让我们开始吧。

主要发现

一览表

在我们深入讨论细节之前，这里是我们最重要发现的简要概述：

我们在速度、准确性和成本三方面的综合获胜者是由Fireworks AI提供的Llama 3.1 70B。

这个模型在我们的测试中取得了完美的准确度分数，为用户提供了最快的响应，并且在代理运行时非常具有成本效益。根据我们的结果，我们已经将这个模型作为Locusive的副驾驶主要模型，并推荐给那些正在构建需要处理复杂用户请求的自主代理的人使用。

Bubble chart showing the results of our analysis — the ideal model would be in the top right corner with a large bubble

Groq有严格的速率限制，阻止我们在没有指数级回退的情况下执行完整请求，可能会影响准确性、速度和成本。Cerebras限制请求到一个8K上下文窗口，可能会影响准确性、速度和成本。SambaNova限制请求到一个8K上下文窗口和1K输出，可能会影响准确性、速度和成本。

翻译英语到简体中文

保持HTML结构，将以下英文文字翻译成简体中文：

上图显示了我们测试的所有模型在三个主要维度上相互比较的结果。

准确性（纵轴）
速度（x轴）
成本（气泡大小）

最佳模型位于右上象限内的绿色矩形内。理想的模型将位于右上角的非常上方，具有一个大气泡。在我们的分析中，来自Fireworks AI的Llama 3.1 70B最接近这个理想模型。在下面，我们将提供有关我们的方法和结果的其他细节，但在此之前，了解LLMs如何赋予自主代理力量是很重要的。

AI副驾驶和LLM：

一个快速概述

AI副驾驶员，就像我们在Locusive创建的那样，非常依赖大型语言模型（LLMs）来实现其核心功能。与简单的聊天机器人或检索增强生成（RAG）系统不同，这些副驾驶员在用户发出请求时必须在幕后不断向LLM发出请求。

解释用户请求
选择适当的工具或数据源.
确定是否已收集足够的信息
制定回应
如果需要更多数据，请计划下一步。

这种持续的循环需要一个在快速、准确决策方面表现出色的LLM，而不仅仅是语言生成。副驾驶员在选择LLM的关键因素包括：

速度：为了最大限度地减少多个调用之间的延迟
准确性：确保在每一步正确决策。
一致性：在整个会话中保持连贯的推理
成本效率：考虑到LLM使用频率很高

了解这些要求为我们的方法论和结果提供了至关重要的背景，接下来我们将探讨。

我们的方法论

使用不同的LLMs执行我们的代理程序，使用已知的输入和输出

我们评估这些LLM的目标是确定最佳的LLM或LLM组合，以用于Locusive的副驾驶员。因此，我们需要创建一个测试套件，精确反映我们的副驾驶员遇到的真实场景。这意味着设计不仅评估语言理解和生成，还评估LLM做出决策、选择适当工具和在多次交互中保持上下文的能力的测试。为了实现这一目标，我们开发了一个自动化测试套件，使用16个不同的测试模拟我们的副驾驶员每天收到的不同类型请求。这些测试包括许多不同的场景，包括：

查询内部数据库
在公司的知识库中搜索
解释和总结定性数据
回答针对产品的特定问题
在互联网上搜索
分析大量数据

整个测试套件以自动化和受控方式运行 - 在每次测试之前，相关数据源被创建，配置，并填充数据。在每个测试的执行过程中，测试框架向我们的代理发出请求，然后代理处理请求，就像在现实世界中一样，将结果返回给测试系统。测试系统然后检查结果的准确性（因为它知道正确答案应该是什么样的），自动记录哪些测试通过了，哪些测试失败了，每个测试使用的总令牌数量，以及每个测试运行所用的总时间。

我们对每个模型运行测试套件两次，然后取两次运行的结果平均值得出最终结果。

关键指标：准确性、速度和成本.

我们关注了三个关键指标：

准确性：以测试套件中正确完成任务的百分比来衡量。
速度：记录为测试套件运行所花费的总时间，并以派生指标呈现：每分钟可运行的测试总数。
成本：计算为运行整个测试套件的总费用，并表示为每美元可运行的总测试数。

测试环境和设置

每个LLM都使用相同的硬件配置进行测试，以确保公平比较。
我们为每个模型运行完整的测试套件两次，以考虑潜在的变化。
对于处于beta版状态的模型（Groq，Cerebras，SambaNova），我们基于类似服务估计了成本，因为它们处于免费beta状态。请注意，这些模型都对beta用户施加严格限制，这对我们的结果产生了负面影响。我们希望这些系统在beta版后会更加准确和快速。

所有测试均使用实际设置场景进行。包括：

在向量数据库中预先建立索引的文档
模拟客户数据库架构
典型API速率限制和令牌限制

通过遵循这种方法论，我们旨在在人工智能副驾驶员的背景下提供对LLM性能的全面和公正比较。在下一节中，我们将深入分析我们的研究结果。

详细性能分析

准确性

在人工智能副驾驶的世界中，准确性不仅是一种好的选择 - 它是至关重要的。错误的副驾驶会导致错误信息，糟糕的决策，最终会丧失用户信任。在我们的每个自动化测试中，我们有几个不同的检查来确保我们的副驾驶的响应是准确和完整的。这不仅包括响应本身的内容，还包括检查列表的完整性，确保提供所有相关引用和源文件，并确保我们的系统在合理的时间内响应。如果在给定的测试中有任何检查失败，整个测试都会失败。当测试的所有条件都得到满足时，我们将测试标记为成功。

下面的图表比较了我们测试的每个模型供电时我们的副驾驶的表现。

Bar graph showing which models led to the most accurate results in our test — Llama3.1 70B and 405B from Fireworks had perfect scores

*Groq有严格的速率限制，这可能会导致测试失败，因为我们的系统会终止运行时间过长的请求**Cerebras限制我们使用8K令牌，即使对于Llama 3.1也是如此，如果测试在上下文窗口中有大量数据，可能会导致测试失败***我们的SambaNova账户被限制为8K令牌和1K输出窗口，这影响了一些处理大量数据的测试的准确性

翻译成简体中文

保持 HTML 结构，将以下英文文本翻译成简体中文：

顶尖表现者

通过fireworks.ai的Llama 3.1 70B: 100%
通过fireworks.ai进行的Llama 3.1版本405B：100%
双子座 1.5 Pro：91%
ChatGPT 4o：88%
克劳德3.5十四行诗：88%

来自fireworks.ai的Llama 3.1模型凭借完美的准确度得分脱颖而出，在我们多样化的测试套件中展现了它们强大的性能。Gemini 1.5 Pro以及来自OpenAI和Anthropic的最新产品也展示出强劲的结果，准确度超过85%。

影响准确性的因素

在分析结果时，我们确定了几个影响准确性的关键因素：

令牌限制：通常表现更好的模型具有较高的令牌限制，因为它们可以处理更多的上下文。例如，通过Cerebras的Llama 3.1 70B模型，仅限于8K标记，与其通过fireworks.ai的100％得分相比，仅获得了66％的准确性。
模型大小：较大的模型往往表现更好，例如Llama 3.1的405B参数版本与70B版本的完美得分相匹配。
速率限制：像Groq那样严格的速率限制导致测试失败和更低的准确性得分（通过Groq的Llama 3.1 70B的得分为56%）。
输出限制：SambaNova的1K输出窗口限制影响了处理大量数据的测试的准确性。

这些结果突显了模型能力和特定提供商限制之间复杂的相互作用。虽然一些模型展现出令人印象深刻的原始性能，但实际限制如令牌限制和速率限制显著影响了它们在现实世界中的有效性。

在接下来的部分中，我们将探讨这些模型在速度方面表现如何 - 这是创建响应式人工智能副驾驶员的另一个关键因素。

速度

在人工智能副驾驶世界中，快速响应是非常重要的。不幸的是，那些在单个请求中不得不与LLM交互多次的副驾驶员本质上会变慢，因此在可能的情况下重视速度优化至关重要。在我们的自动化测试中，我们测量整个测试的响应时间 - 从开始到结束，因为用户最终只会看到我们的副驾驶员的一个响应。这样做的一个后果是，即使一个LLM产生快速输出，如果该输出是错误的，并且我们的系统需要重试一个任务，这将增加系统响应用户所需的时间。这就是为什么最快的LLM并不总是用来供电代理的最好的选择 - 一个LLM需要既快速又准确。

话虽如此，下图显示了每个模型的自动化测试中位数测试完成时间（以秒为单位）。

Bar graph showing the median time for a single test in our test suite

Groq有严格的速率限制，导致我们的系统频繁调用指数回退，增加测试运行时间。Cerebras将我们限制在8K令牌上，即使是Llama 3.1版本，这可能会人为减少响应时间。SambaNova将我们限制在8K令牌和1K输出，这意味着我们无法处理每个请求中的太多数据，可能会人为减少响应时间。

Home
About Us
Services
Contact Us

顶级速度表现者

双子座1.5 闪光：22.9秒
利马3.1 70B通过Cerebras：38.1秒
ChatGPT 4o 迷你版：42.3秒
羊驼3.1，70B通过fireworks.ai：44秒
双子座1.5 Pro：48秒

请注意，尽管Gemini是最快的模型之一，但也是最不准确的之一。在使用Gemini进行测试时，我们许多的响应返回不完整或错误。值得注意的是，提供快速推理的Groq导致了最差的响应时间，因为他们的系统有严格的速率限制，需要我们的副驾驶等待很长时间才能进行请求。因此，这种比较对于Groq（或任何其他快速推理提供商，因为它们都有限制）并不完全准确，但这是今天提供给代理开发者的信息。

有趣的是，更大的模型并不总是意味着回应更慢。Llama 3.1的405B参数版本只比其70B对应版本稍慢（53秒 vs. 44秒通过fireworks.ai），甚至Fireworks的70B模型也是最快的表现者之一，可能是由于其高准确性意味着更少的重试或错误的工具调用。

这些发现强调了在选择一个LLM作为您的副驾驶员时考虑整个生态系统的重要性。虽然原始模型的性能至关重要，但诸如速率限制和令牌限制等因素可以显著影响实际速度。在下一节中，我们将探讨我们分析谜题的最后一部分：成本。正如我们将看到的，实现准确性和速度的正确平衡不一定会让您破产。

成本

当准确性和速度至关重要时，运行AI副驾驶员的成本可能决定其对企业的可行性。 AI副驾驶员是新的，在与其基础LLM进行通信时消耗大量代币。新的副驾驶员开发人员必须考虑到他们的成本。除此之外，我们能降低成本的程度越低，我们为客户提供的定价就会更好。

以下图表显示了我们的测试套件在不同型号的辅助驾驶员下运行一次的平均成本。

Bar graph showing the cost of running our test suite one time when using different models

我们使用Groq的免费测试版，因此我们估计成本是使用Fireworks定价和Groq测试产生的代币计数**我们使用Cerebras的免费测试版，因此我们估计成本是使用Fireworks定价和Cerebras测试产生的代币计数***我们使用SambaNova的免费测试版，因此我们估计成本是使用Fireworks定价和SambaNova测试产生的代币计数

翻译为简体中文

保持HTML结构，将以下英文文本翻译为简体中文：

大多数经济有效的模型

双子座1.5 闪光：每个测试套件 $0.09
ChatGPT 4o Mini：每个测试套件0.11美元
利用SambaNova的Llama 3.1 70B: 每个测试套件$0.28
利用 Cerebras 的羊驼 3.1 70B：每个测试套件 $0.29
利用Groq的Llama 3.1 70B:每个测试套件$0.39

双子座1.5 Flash和ChatGPT 4o Mini是最经济的选择。然而，必须记住，性价比必须与准确性和速度相平衡，以获得最佳的副驾驶表现。对于测试版或免费版本的模型，我们必须根据类似服务来估算成本，我们使用了Fireworks的定价和各自测试中的令牌数。

值得注意的是，我们的总体获胜者Llama 3.1 70B通过Fireworks AI，每个测试套件的价格为0.52美元。虽然不是最便宜的选项，但它提供了性能和成本的极佳平衡。

影响成本的因素

令牌使用情况：需要较少令牌才能完成任务的模型往往更具成本效益。
重试率：在实践中，更准确的模型可能更具成本效益，因为它们需要更少的重试次数才能成功完成任务。
提供商的定价模式：不同的提供商有不同的定价结构，这可能会显著影响总成本。

这些发现突显了考虑不仅是每个令牌的原始成本，还有模型的准确性和效率如何影响AI副驾驶的总运营成本的重要性。

在接下来的部分中，我们将综合我们在准确性、速度和成本方面的发现，为AI驾驶员助手中LLM选取提供我们的综合建议。

观察和洞察

我们对不同的LLM进行了分析，得出了一些关键的见解，可以指导企业选择适合他们AI助手的正确模型。以下是我们研究中一些最有趣的观察结果。

模型尺寸：更大并不总是更好。

当比较同一型号系列的不同尺寸时，我们发现了一些有趣的结果：

Llama 3.1 70B 对 405B: 两者在我们的测试中都达到了100%的准确度，但是70B版本稍微更快一些（44秒 vs 53秒），而且更具成本效益（每个测试套件 $0.52 vs $1.82）。

这表明，尽管较大型号可以提供令人印象深刻的功能，但对于典型的副驾驶任务来说，它们并不总是必要的。在我们的测试中，405B型号的额外参数并未转化为有意义的性能提升，使得70B版本成为大多数应用程序更高效的选择。

Beta供应商的潜力

尽管Groq、Cerebras和SambaNova在我们的测试中由于处于beta阶段而显示出一定的局限性，但它们也具有很大的潜力。它们被设计为提供快速的推断，并已经支持Llama 3。我们相信随着这些模型提供商走出beta阶段，它们的准确性很可能会达到最先进水平，并且它们的快速推断技术将推动快速交互，使它们成为。