编辑们的人工智能课程
为Daily Maverick设计和构建一个人工智能系统,人与计算机相互协作的系统。
这个想法很简单:让我们拿这个新潮的GPT-东西来概括新闻。那有多难呢?
这是在2022年末,人工智能刚刚迈出了一大步,无论是在真实能力还是公众认知方面都有了很大的进展;OpenAI的ChatGPT-3以其类人的反应,从“我应该用过熟的香蕉烤什么?”到“制定一项终结人类的计划。”都令人惊叹不已。每个人都想成为这样的热门话题,新闻出版商们仍然感受到互联网的兴起所带来的FOMO和PTSD,不想被落在后面。
Daily Maverick也不例外。作为出版领域真正的数字领袖,拥有非常成功的会员计划,这家南非新闻出版商一直在编辑和技术领域不断开拓进取。虽然南非面临着严峻的经济条件,但它仍然获得了回报,快速增长并不断提高技术和编辑服务的质量。
我最近受到FT Strategies的Tim Part的一个有关新闻编辑实验的演讲的启发,想要构建一些小东西作为起点,只是为了看看技术有什么能力。我开始尝试使用OpenAI Playground进行实验,这是一个比通常的ChatGPT接口更具选择性的系统,并且更能表明我们最终将如何接口OpenAI的API。
将HTML结构保留,将以下英文文本翻译成简体中文: 将文章输入,并要求GPT进行摘要,创建标题,检查错误并创建推文,很快就让我们了解到它的缺点。 GPT-3在摘要方面表现得还不错,在标题方面还不错,在替代拷贝错误方面毫无用处。对于推文而言,它非常不可预测,一秒钟创造出了一个出色的推文,下一秒钟又创造出了一个无法使用的推文。
但是在整个过程中,我们可以看到它的潜力逐渐显现出来:它出奇地创造了一些话题标签,有时甚至还会加入表情符号来发推文。
它最大的困境是计数:你不能指望 GPT-3 自我限制在140个字符或x个句子的摘要中,或者甚至“用四个项目总结”,而有可靠性。这也是 GPT-3 差劲的原因之一,它不能预先规划(AI 研究员称之为“缓慢思考”),大语言模型像 GPT-3 擅长“快速思考”,但是规划和预先计划 - 缓慢思考,是它们的阿喀琉斯之踵。当他们解决了这个问题的时候,当然,人类就注定了失败。
另一个摘要的问题是,OpenAI的模型倾向于摘要文章中的每个重点。这不一定是报纸想要的行为;根据使用情况,它可能希望引诱读者阅读摘要,给出一些关键事实,然后如果他们想要更多详细信息,再点击浏览全文。摘要并没有补全文章,而是使它们变得多余。
如果一篇文章没有以严格的金字塔风格撰写,那么摘要通常会完全偏离主题。例如,在观点写作中常见的华丽介绍会使GPT-3无从下手。
有时候,也许十次中有一次,总结会完全错过重点,甚至会在事实上错误。
另一个问题是语调: 摘要缺乏 Daily Maverick 典型的辩论风格的划痕和冲击力,如果没有仔细提示的话,会显得很枯燥。这在很大程度上是通过添加:“…采用 Daily Maverick 的风格”来解决的。虽然许多创作者可能会抱怨他们的内容在未经同意的情况下被添加到 AI 模型的巨大漩涡中,但在某些情况下,AI 在预先训练您的独特语言风格上非常有用。尽管如此,添加这个会偶尔导致像这样开头的摘要:“根据 Daily Maverick 的一篇文章……”或更糟,“这篇文章是关于……”。让我把我的眼睛挖出来!
显然,虽然 GPT-3 令人惊叹,但它也是让你自找麻烦的坏东西。就像一个蹒跚学步的孩子一样,你不想把它独自放在家里一天,没有监督,否则你可以肯定在某个时刻,一些淘气肯定会发生。
输入人机协同的概念:正如其名称所示,人机协同系统需要真正的生活人来协助技术。在摘要的情况下,我们仅将摘要标记为未批准状态 - 因此不适用于公众消费 - 直到编辑者(可以是副编辑、版块编辑或首席副编者)进行了检查。然后编辑者可以决定接受原样,拒绝它(立即生成新选项)或编辑摘要。
这是我最喜欢的人工智能类型,我认为我们应该把重点放在这里:AI成为一个非常强大的工具,帮助技术娴熟的人更好地完成他们的工作。它仍然需要知道如何编辑的人来使系统运行,但它使他们在工作中变得更好,能够以更高的水平思考,而AI则协助完成琐碎的工作。
人工智能就像一场即时的农业革命,从犁地工具到拖拉机,除了在一夜之间给世界上所有人都赠送了一台拖拉机。如果你是个农民,那很棒,但如果你对农业一无所知,这就相当无用了(除了拖动俄罗斯坦克,当然)。它使得高技能人才变得更好,但在现阶段,让不熟练的人掌握技能型工作并没有那么神奇。
我为随后成为SummaryEngine Wordpress插件的两个单独接口建立了结构。其中一个接口是在编辑文章时出现的,另一个是显示所有文章摘要的概述,这使得编辑员可以快速处理多个摘要。就像这些东西一样,两个接口都不太复杂,虽然有很多细节工作,当然如果我要再次构建这个插件,会有很多代码和设计改变。但重点是实验成本不高,可以让我们生成摘要,观察编辑员如何使用它,并在组织内建立起AI知识、意识和认同的基础。
在这两个界面中,只有一个接口是真正被使用的,那就是文章CMS,这是我从这个项目中获得的最大收获之一。编辑是忙碌的人,他们想在一个屏幕上完成所有操作,而这个屏幕是他们最常使用的一个。这样的看法在我正在处理的其他一些项目中也变得更加清晰。仅仅因为有人的工作是使用网络界面,但通用的规则仍然适用于潜在的浏览器或客户:“不要让我思考”;并且当然:“不要让我加载新页面”。
我们在编辑文章页面的用户界面上进行了两次主要的设计迭代,其中最小的变化之一产生了最大的影响:将“取消批准”更改为“拒绝”。(感谢Styli Charalambous的建议。)作为软件开发人员,我们的术语通常基于数据模型或应用程序模型,但它不符合用户头脑中发生的事情的模型。他们对现实的感知实际上比您编写的代码现实更重要,因为在一天结束时,您需要他们的参与度,而不是他们需要在每篇文章上执行额外工作。
我最近遇到了这个问题,当我发现编辑所谓的“章节页面”其实是站点的不同首页时,我可以试着重新教育20名编辑,让他们了解语义上的差异,或者我可以顺应情况,适应我的语言和我们软件的语言。相比人们根深蒂固的看法,软件更具可塑性。虽然人们使用错误的单词会让我很不爽,但我需要记住,这只是我个人的观点,并不代表他们也这样认为。
编辑们开始使用摘要,令我感到非常高兴,但我们仍然不知道要怎么处理它们。当然,我们没有告诉编辑们。选择包括摘要通讯、在我们的移动应用程序中使用,甚至在阅读文章时作为弹出窗口或侧边栏。虽然我通常不建议在没有明确设计的情况下开始项目,但在这种情况下,效果非常好:Daily Maverick已经悄然推出了一个完全新的界面,带有摘要,作为另一个低成本的试验,看看我们的用户如何与它们交互。新界面使用两种类型的摘要:简短摘要和项目点。它已经成为我阅读Daily Maverick的最爱方式,并且在上周访问了超过17,000名读者。它是否成为DM提供的重要产品将取决于数据,但是我们能够快速推出并维护这个产品,即使我们刚刚开始尝试使用AI技术,这表明了这项技术的潜力。
该项目还开拓了其他用例的可能性:与GPT-4的实验显示出在长度和语气方面效果要好得多。它仍然无法进行把关或编辑,但它能够进行翻译。翻译引擎正在筹备之中。它还能够提供标题建议,我们可能会将其整合到我所建立的标题评分器中,这改变了新闻编辑根据读者反应而定制标题的方式,并帮助了日报野马每月突破了1000万的独立读者数量。再次强调,这些干预措施将以我们的工作人员为本,给他们提供工具而不是试图替代他们。如果你让AI自己写标题,结果就像给幼儿提供一支永久性的笔,一桶颜料和你的化妆抽屉,然后让他们独自待上几个小时的结果一样。
Daily Maverick运行的是WordPress,因此SummaryEngine是在WordPress上使用PHP构建的,使用MySQL作为数据存储,并且部分用户界面使用Svelte与Typescript构建。我们使用了GPT-3完成界面,但将尝试使用Chat界面进行GPT-3.5和GPT-4的试用。