我在生产环境中部署Gen AI时学到的东西以及为什么大多数数据科学项目都会失败

ChatGPT中文站
Photo by Hannes Wolf on Unsplash

为了开篇,通常我会提供技术细节,但不幸的是,这次我无法这样做。然而,在本文中,我想涵盖的内容无论如何更加有用,尽管有点抽象。

也就是说,我对数据科学创新的想法更普遍地聚焦于最近在生成式人工智能方面的研究,但也包括我过去参与的推荐系统和个性化系统。

我的当前生成性人工智能应用的技术实现相当飘忽,由于快速迭代的阶段性,技术和技巧几乎每天都在发生变化。因此,在这里详细说明它们很快就会过时。

从为什么开始

一些背景:我是在出版行业工作的数据科学家,首先我想要承认最近对于我们行业来说,特别是对于LLMs和生成式人工智能的改进,以及随后的普及化,可能具有潜在的重要意义。

我相信我们可能处于战略性转折点之内,书《只有妄想狂才能活下来》将战略性转折定义如下:

总之,战略性转折点是指任何业务(无论是技术性的还是非技术性的)发生的根本性变化。

社交媒体的引入可以说是出版业的第一个战略性转折点。

无论生成式人工智能的民主化是否真正成为一个决定性的转折点还有待确定,不过目前的结果令人信服。

我相信这可能是技术短暂影响的下一个前沿,更简单地说,就是以更少的方式做更多的事情。

这个担忧是,这可能对出版业而言像流媒体对电影租赁业一样重要,如果我们不去探索这些可能性,那么现有企业和尚未创立的初创企业可能会占据重要地位。

项目

在企业环境中有机会提出和执行一个想法是一种罕见的特权,对此我非常感激。在高层次上,这个工具被用来帮助编辑为英国一家大型出版商生成在线新闻文章。

在开始这个项目之前,我设定了一些参数。即我们将直接为我们的编辑利益相关者合作进行工作,这项技术的应用仅仅用于那些他们不愿意做的任务,希望人工智能能够为他们的角色带来更多人性。

快进几个月后,该工具已经帮助创建了数百篇文章,吸引了数百万次页面浏览量,并且已经推广到投资组合中的更多出版物。

这被广泛认为是一个成功,虽然我知道在宏观层面上数据科学项目通常情况并非如此。在下一节中,我将讨论我为什么这样认为。

为什么大多数数据科学项目会失败

最近,在参加一场会议时,我面对着以下统计数据。

ChatGPT中文站
(VentureBeat, 2019)

鉴于这些相当不幸的统计数据,你可能会说对数据科学的投注是一个胜算很低的赌博。

我希望能够对我认为这些倡议成功的可能性相对较低的原因提供一些解释。为了明确起见,这些想法完全是我个人独创的。

TL;DR答案是解决方案的复杂性。

ChatGPT中文站
Photo by Giulia May on Unsplash

解决方案复杂性是什么?

解决方案的复杂性是指部署一种新解决方案所需的技术能力,基础设施和所需的时间(以人时计)。

鉴于尚未见到生产的创意信息不完全,这些解决方案要么有益,要么没有益处 - 然而,生产的领导时间将允许从业者确定哪种情况是正确的(具有一定的统计确定性)。

自然而然,大多数从业者首先会倾向于解决方案的复杂性或者“对我的简历更好看”的方案。

问题当然是,这些解决方案通常从技术角度来看是非常复杂的,并且执行起来也非常复杂。

对我来说,问题就在于此。

技术复杂性并不一定代表商业价值。

这并不是对解决方案复杂性的公开批评,而是对工作项目优先级的一种不同理念。

ChatGPT中文站
Photo by Jonathan Greenaway on Unsplash

一个创新的框架:为什么应该在学校教授数学期望

在我看来,数学期望应该是任何学校课程的一部分。我并不是试图把年轻人逼成堕落的赌徒,事实上正好相反。

数学期望的方程如下所示。(来源:维基百科)

ChatGPT中文站
Wikipedia

例子;我们玩一个游戏,我们抛一个公平的硬币。正面朝上,我赢,你支付我2英镑;反面朝上,你赢,我支付你1英镑。

因此,我的每场比赛的数学期望如下。

保持HTML结构,将以下英文文本翻译为简体中文: (0.5)*(£2) + (0.5)*(-£1) = £0.5

因此,根据大数定律,我预计每次翻转硬币可以赚取0.5英镑。我们玩的游戏越多,我们就会越接近这个预期值。

为了更有用地描述数学期望,我将使用扑克比喻,尽管有些简化。

当玩家在扑克游戏中对你下注时,你必须考虑是否值得继续参与这手牌,还是弃牌。为了简单起见,我们不考虑暗示赔率。通常在做决定时,你会评估以下3个变量来决定是否留在这手牌中。

  1. 奖池大小 - 如果你手上有最强的牌,你将赢得多少钱

2. 下注 - 为了继续参与游戏,您必须冒险投入多少金额。

3. 罐赔率 — 实现数学期望的打平赔率或者是奖池大小与赌注大小之间的比率

如果壶赔率暗示着正面期望值,那么玩家应该跟注继续参与游戏。

例如,假设您和对手是手牌中仅剩的两名玩家,如果您的对手下注20英镑,而奖池金额现在为80英镑。要呼叫这个赌注,您得到的奖池赔率是80:20或者4:1,因此您需要超过20%的胜率才能保证数学期望为正值,从而使长期内的呼叫成为盈利行动。

那么这个类比如何普遍地应用于创新呢?

ChatGPT中文站
Photo by Marian Florinel Condruz: https://www.pexels.com/photo/statue-of-the-goddess-fortuna-13779268/

机会(沙锅)

花盆的大小与我们类比中的机会大小或项目预期投资回报率相对应,这取决于您关心的度量标准。

您应该在有数据可用的情况下使用数据,或者至少使用一个领域专家的直觉。对于我们的生成式人工智能项目,最初的应用是在缺乏全面数据的情况下由编辑监督指导的,尽管后来已经添加了跟踪。

通过整个投资组合中成千上万的编辑人员的任何实际效率提升,都能为优化每单位内容成本提供合理机会。此外,对我们核心能力的任何提升都可能对文章表现产生重大影响,从而优化每篇文章的页面浏览量。

资源的前期投资(股份)

资源的前期投入与我们类比中的股份相对应。也就是说,为了将您的想法落实到实际生产中,您必须支付一定数量的资源投资,包括但不限于项目所分配的人力资本以及所需投入的时间、IT基础设施、机会成本等等。

这可能起初并不容易计算,但从小做起几乎肯定会有帮助。通过有限的概念验证(POC)得到认可,并在有限实验有成果时进行扩展。有关此内容,请参阅下文的“解决玩具问题”。资源的前期投资与解决方案的复杂性直接相关,扩展解决方案的复杂性将确保资源的投资具有积极的数学期望。

成功的概率(潜在赔率)

保持HTML结构,将以下英文文本翻译为简体中文: 对于新创新来说,准确计算成功的可能性是困难的,尽管可以采取一些行动来优化成功的可能性。您应该考虑您拥有的先验证据,该干预可能会起作用。

为了举例说明,我将详细介绍我如何开发了用于生产环境(截至撰写时)的主要推荐算法,以最大化成功的概率。

我在学术文献中确定了一定程度的共识,对于一个相当简单的算法,我在相对短的时间内部署了它,并在已经被证明可靠的现有架构的基础上进行了扩展。

通常我遵循这样的格言,对于代码和想法来说,年龄通常意味着美丽。

在生成式人工智能的背景下,相同的理念适用。部署的提前时间是决定项目风险水平的因素,因为一旦投入生产,您可以建立一个反馈循环。

反馈循环

反馈循环是软件开发中最重要的概念之一,反馈的速度和质量有助于减少未知因素。

您对于反馈的迅速迭代能力将最终决定您成功的可能性,或者至少在合理的时间范围内证明此方法不果断时,应该放弃该方法。

我可以分享一个关于反馈质量的例子,这对我非常有效,那就是部署AWS成本智能仪表板来管理生产成本。

对于我的生成AI项目来说,开始阶段的反馈主要来自页面浏览次数、每日生成文章数量以及少数几位乐于助人的记者的评论。幸运的是,现在我们的评估指标越来越科学了。

为了阐述我的观点,我想参考以下的TED演讲。

构建一座塔楼,构建一个团队

从讲话的记录中,下面的挑战被提出了。

彼得·斯基尔曼提出了一个被称为“棉花糖挑战”的设计挑战。这个想法非常简单:由四个人组成的团队必须用20根意大利面条、一码的胶带、一码的绳子和一个棉花糖建造最高的独立结构。

一个实验,在很短的时间内,要求一组儿童、首席执行官、律师和MBA学生用意大利面、棉花糖、胶带和绳子建造最高的塔楼。

结果可能会令人惊讶,但我认为可以在这实验和一般实验的性质之间进行类比。

结果如下:

因此,大多数人的平均身高约为20英寸;商学院学生约为其中的一半;律师的身高稍微好一些,但比那还要好多少;幼儿园学生比大多数成年人更高。谁表现得最好呢?幸运的是,建筑师和工程师。

“幼儿园的不同之处在于他们从棉花糖开始并建造原型,连续不断地建造原型,始终将棉花糖放在顶部,这样他们在建造原型的过程中有多次机会进行修正。”

我认为这是将生成性人工智能和创新部署过程生动地类比,毕竟对于许多机器学习专业人士来说,这是新的领域,最佳实践并没有完全被理解,每天都在产生新的学术文献。

解决玩具问题

玩具问题是指解决整体问题的简化版本,拥有有限的概念验证(POC)有助于利益相关者阐明用例,并能够提供一些即刻可见的价值。

从小开始,与投资组合中的一份出版物合作,并拥有实施我的技术愿景的自由,使我能够限制领域的复杂性。避免了“众厨子乱炖”的问题,我们能够迅速前进。虽然要指出的重要一点是,该项目是多学科的,具备产品能力对于整合和纳入用户反馈至关重要。

我的建议是专注于可以通过生成式人工智能增强的当前流程。熟悉的流程更容易进行基准测试。您也不需要在有限资源的零和博弈中竞争。

在《创新者的解答》一书中,我首次了解到竞争非消费的概念。

非消费在这里意味着新的流程只与当前的流程竞争。如果当前的流程特别繁琐,那么大多数利益相关者都会拥抱任何和所有的创新。

约束理论(TOC)和客观思考

高层次上,约束理论可以下列方式定义:

约束理论是基于这样一个前提,即目标导向系统的目标实现速度(即系统的吞吐量)至少受到一种约束的限制……只有通过增加约束上的流动,才能提高整体吞吐量。

在优化工作流程时,应客观地思考约束条件。我们从不假设生成式人工智能会成为编辑过程中的唯一限制因素,对此的假设我认为会对利益相关者的智慧表示侮辱。相反,我们合作解决所有限制因素。

我们现在有信心认为生成式人工智能的应用正适当地增加编辑流程的价值。

注意事项

由于我们的使用案例中包含了一个人的参与,这可以减轻这种可能具有波动性技术的一些风险。这使得我们能够迅速投入生产,但如果模型输出未经验证,则可能会受到黑天鹅事件的影响,风险需要仔细考虑。

结论

我相信大部分数据科学项目失败是因为解决方案的复杂性,并不一定与直接的商业价值相关。

部署一个解决方案能够安全地投入生产越快,反馈循环就能够建立得越快,迭代改进的过程就能够开始。

这包括但不限于生成型人工智能应用,根据机会的目标范围逐渐提高解决方案的复杂性,并根据反馈来最大化成功的可能性。

2023-10-20 17:17:59 AI中文站翻译自原文