困难的一件事:大型语言模型
随着我们在 AI 和机器学习领域的探索,我们常常为像 GPT-3.5-turbo、Claude 或最新版本 GPT-4 这样的大语言模型(LLMs)的前景所震撼。这些模型为各个行业提供了变革的机会。但是,它们也有着它们自己的限制和怪癖。
仅在上个星期,我们使用GPT模型进行了深入的提示工程研究,这是一次既充满启发性又具有挑战性的体验。今天我们将深入探讨我们在那次会议以及与这些模型的其他互动中发现的约束和挑战,并揭示仍需要进一步改进的领域。
上下文窗口的限制
LLMs 有一个内在的限制——输入数量的限制,称为上下文窗口。 这个限制包括所有内容,包括您的输入、LLM 的潜在输出以及任何您想注入的辅助数据。 这个窗口的大小可以极大地影响模型提供连贯和上下文相关响应的能力。 因此,尽管 LLMs 可能强大,它们的知识和理解受到此窗口的限制。
延迟问题
性能在任何AI应用中都很关键,LLMs也不例外。尽管是目前可用的最好模型,商业LLMs如GPT-3.5-turbo和Claude通常需要几秒钟才能生成有效的响应。这种延迟可以从仅几秒钟到超过15秒不等,取决于模型、自然语言输入、架构大小、架构组成和提示中的指令等因素。虽然GPT-4是可访问的,但对于实时应用来说仍然太慢。
许多人提出使用LangChain将LLM调用链接起来以提高输出的想法。然而,这种方法会加剧延迟问题并引入由“复合概率”导致的不准确性风险。当然,有减少这些风险的方法,但在许多情况下,没有什么能与几乎实时的响应相比。
快速工程学的艺术
在缺乏训练数据的情况下,快速工程变得至关重要。它是制定正确的指令集的技能,使LLM能够提供有用的输出。然而,这个领域高度实验性,缺乏成熟的规则,使其成为LLM利用的“西部荒野”。
正确性 vs. 有用性
有时候,严格正确可能会导致输出结果不太有用。LLM必须在有意义的方式上解释具有模糊性的输入,并确保模型的可用性而不影响输出的完整性。像“零-shot思维链”提示这样的有前途的技术有其缺陷,往往无法生成任何具有模糊输入的查询。
未解决的提示注入问题
当LLM链接到您的数据库或其他基础设施时,您可能会面临暴露这些元素以进行提示注入的风险,类似于SQL注入但可能更加严重。这可能会无意中授予模型对敏感数据的访问权,从而带来重大的安全风险。
LLMs是发动机。
LLM是功能的引擎,而不是产品本身。尽管它们可以增强功能并简化任务,但它们不能替代标准产品工作或提供完整的解决方案。将LLM误认为是产品可能会导致期望不符合和不满意的结果。
法律和合规方面
使用LLM需要处理法律和合规问题。从数据隐私到版权问题,您需要确保使用这些模型符合现有法律框架。听起来很简单,但这是未知的领域。
早期访问项目的欺骗
早期访问计划(EAP)是各种开发者和大型公司为展示与生成式人工智能相关的内容而推出的。这些计划提供了对LLM新版本所能实现的一瞥。然而,它们不能免除上述固有挑战和限制。因此,它们应被视为探索机会,而不是确定性解决方案。
定期更新
另外,提到规律性模型更新和维护的必要性是非常重要的。由于LLM是在静态数据上进行训练的,所以他们在训练后不会学习或更新他们的知识。因此,为了保持模型的当前性和有效性,需要进行定期的模型更新,这可能需要额外的时间,资源和潜在的复杂性。