在Doctrine上扩大生成式AI

生成式人工智能的兴起为许多公司带来了巨大的创新机遇，包括Doctrine在内。

在过去的一年中，我们一直在研究、完善并发布基于大型语言模型（LLMs）的更多先进功能。我们为我们最新的项目感到非常自豪。

Our legal research assistant can answer complex legal questions by leveraging relevant case law and law text

在我们发布过程的最后一步中，我们面临的挑战之一是：一旦您拥有适用于少数用户的功能，如何将其扩展至成千上万的用户？

特别是，我们很早就决定没有用户数据会离开欧盟。这给我们使用的供应商施加了限制。

我们面临的挑战既涉及财务（运行LLMs可能会迅速产生较大费用），又涉及技术（我们遇到了限制，如速率限制和使用配额）。

我想分享一些关于这些挑战的见解，以及对我们有效的一些方法：通过适当的测量来预测使用情况，处理令牌使用，挑战我们的云提供商，以及持续升级模型。

限制

考虑到生成式人工智能的成本，我们不会立即向所有用户部署新的生成功能。相反，我们首先向一小部分用户开放这些功能。

在对这项功能的价值有信心后，我们开始向我们的客户群推出。对我们来说，这意味着从几十个用户增加到一万以上。

在实践中，这并不像把刻度推到100%那么简单。当需要扩展规模的时候，你可能会面临两个主要的限制：

成本：您需要确保您可以预计和确保您功能所需的预算。如果功能太昂贵，您将无法部署它。如果它太昂贵而您没有预料到，您将超支。

使用额度/速率限制：服务欧盟地区的LLM供应商，由于计算能力有限，因此会限制您在任何时候可以使用多少LLM容量。这通常表示为“每分钟令牌”（TPM）限制。如果超出了可用容量，您的功能将停止响应，LLM将无法继续运行。

这里有一些方法帮助我们在推出Doctrine的生成式功能时管理这些风险。

使其运作

知识就是力量

成功发布的第一个关键是确保您收集到所有需要的数据，以便做出相关选择。最重要的测量数据可分为两类：

运营指标：每个请求的功能成本是多少？如果您有测试用户，他们使用频率是多少？这将帮助您确定是否有问题需要解决。
质量：特征的输出有多相关？绩效评估在开发的每个阶段都至关重要。您需要从一开始就进行评估，以确保您的特征是好的。但是如果您开始关注成本或对特征进行迭代，您也需要进行评估，以确保不会降低答案的质量。衡量gen AI性能有很多方法。您应该尽可能地让这个过程自动化，尽管有时候您确实需要一个专家参与（这本身就是一个丰富的话题，也许值得在未来的文章中讨论！）。拥有良好的绩效评估还可以让您比较并选择最适合您需求的最便宜的模型。

有了这些度量指标，您将了解成本或速率限制是否确实是风险因素。实际操作中，您不应该遇到太多麻烦：

如果您的输入和输出非常小（通常每个请求几十到几百个令牌，尽管这也取决于功能的流量）。在这种情况下，您可能不会遇到大额费用或令牌使用量。
如果您使用较便宜的模型。“小型” LLM（如GPT3）在成本和可用容量方面与最昂贵的模型（如GPT4）相比有数量级的差异。这也是为什么在将它们用于生产之前，您应该花时间确保您确实需要最先进的模型。有时候，您却无法绕过它。

一些我们的生成特性实际上成本微乎其微，并在完全发布之前不需要我们采取任何特殊行动。

减少令牌使用

输入和输出的大小通常以“令牌”来计算。

每个令牌都需要一定金额，并计入您的使用配额（至少在通过云提供商时是如此-如果您自己托管，则关系不太明确，但仍然存在）。

这意味着一个非常重要的指标是：每次使用此功能时我消耗多少令牌？

它对成本和使用均有重大影响。

这里没有灵丹妙药，解决方案将在很大程度上取决于您的使用情况。一些对我们有效的方法包括：

具有详细的测量数据：除了上述提到的高级指标外，我们还非常精确地测量我们的LLM提示的结构。如果我的输入/输出很大，那是为什么？我的用户输入了大量输入吗？我是否为模型提供了大量的上下文？如果是的话，哪些文档最长？我能否生成更小的输出？您希望尽可能详细地分解这些问题，以了解您在哪里可以发挥影响力。
分块：一个用例是输入往往很大的地方是检索增强生成（RAG），在这里您提供有用的上下文以及用户查询。如果上下文文档很大，您应该花一些时间将这些文档分解成较小的部分，并只传递相关段落作为上下文，而不是整个文档。
缓存：在某些情况下，您将一遍又一遍地执行相同的生成（无论是最终结果还是中间步骤）。在这种情况下，将输出存储起来并避免不必要的开销是非常有效的。例如，如果允许用户总结一篇公共文档，您可能希望在完成后将摘要存储起来并在之后重复使用。
处理子案例：一些功能具有非常开放的输入方式（尤其是类似聊天的输入）。这意味着用户可能会尝试通过在同一输入框中输入内容来满足各种需求。在实践中，这是一个既可以降低成本又可以增加相关性的机会。一些查询可能完全超出范围，检测到它们将使您可以避免浪费资源，而是返回一个标准答复。有些查询可能非常简单，不需要您的RAG工作流的全部功能。一个例子是：我们的聊天功能会检测用户询问一个特定文件问题而不是在广泛话题上寻找信息的情况（这种检测是通过一个初步的查询理解步骤完成的，也使用LLM）。在这些情况下，我们不会将多个文件传递给LLM作为上下文信息，而是只使用一个文件。这会大大降低这些查询的成本，还能帮助我们提供更加专注的答复并提高功能质量。这是一个双赢的情况！