我能比AI写得更好吗?

我希望是这样,但这是一个棘手的问题。

ChatGPT中文站
Photo by Arthur Chauvineau on Unsplash

我们都担心机器人来抢我们的工作。艺术家和作家似乎是紧缩预算企业用“足够好”的AI语言模型和图像生成器来代替的最新目标。

我最近在 On The Premises 杂志上参加了一个“小竞赛”,要求“用25到50字的完整故事来描述、展示或唤起同一件事情、地点或事件的两种非常不同的观点”。这个主题本身也有30个字,让你对我们的工作空间有一个想法。

微型小说对大多数作家来说都是一项困难的技能。即使在我们最好的时候,我们也难以找到合适的词语并将它们按正确的顺序排列。限制我们只有50甚至100个字,那么每个字都必须很重要。

在玩弄了几个想法之后,我提出并提交了我的竞赛作品,总字数为47个。

当烟花在瘀紫的天空中绽放时,两颗心脏同时跳动。扭曲的手指伸向手枪,听到恐惧的尖叫声和机枪的爆炸声。相反,他们与一个孩子的丰满、掌心向上的手掌相遇,孩子的眼睛充满了星星。

我为自己感到相当自豪,但突然想到一个问题:我会在这个比赛中与人工智能竞争吗?这个提示听起来就像人们正在推广ChatGPT的那种东西。

能否让人工智能做得更好呢? 我决定尝试一下,把比赛的提示输入ChatGPT看看它会产生什么。它能够在不到一分钟的时间内生成十个潜在的故事,所有这些故事都令人惊讶地不错,但有点套路。稍加调整,它们就可以成为令人信服的人类作品。

带着即将来临的恐惧感,我请求ChatGPT写出自己的入门“版本”。我编辑了比赛提示,包括我微小的小说的描述:“在25至50个单词之间讲述,展示或唤起一个故事,其中两个非常不同的视角,一个是儿童,一个是受创的战争老兵,看到了烟火。”这就是ChatGPT想出的内容:

当太阳落下地平线,一阵烟花在夜空中绽放,绽放出万彩斑斓的景象。孩子的心中充满了纯真的惊奇,发出一曲欢笑和敬畏的交响乐。但对于这位战争退役军人而言,它却引发了一阵痛苦的风暴,使他重新经历了惊天动地的爆炸和灵魂的破碎。

我的独创性就这样了!

AI的散文更加丰富多彩且冗长(它包含53个单词,因此实际上不合格),但除此之外,故事几乎与我的相同——不,我没有把原作传给它。两个故事都包含心脏“跳动”,枪械“爆炸”和烟火“炸裂”。实际上,我认为AI对老兵“复活”的创伤的描述可能比我的更好。

我用相同的提示生成了另外两个回应(我一字未改),它们也不错:

烟花在上空绽放,用缤纷的色彩点亮了天空。孩子的眼睛闪闪发光,充满了天真的快乐,而战争老兵的心激烈跳动,误以为声音是枪声。他们截然不同的视角碰撞在一起,每个人沉浸在自己的记忆和情感世界中。

这篇文章相对第一篇更加逐字逐句,文笔略显平淡,但同样有“爆炸”的烟花和“飞快”的心跳,也包含了一个与我的结尾非常相似的句子,与孩子的“闪闪发亮”的眼睛有关。用相同的提示进行了另一轮尝试后,结果更加出色。

一个孩子的笑声充满了空气,当烟火在夜空中爆炸时。 对他们来说,这是一个绚丽多彩、神奇的奇观。 然而,附近的一名战争老兵在每次爆炸中退缩,因为没有人能看到他所承受的痛苦的记忆。

是啊,我能看出这是真正的人写的。

分析 我们肯定有工具可以防止人们将提示插入AI,并像这样洪水般地涌入比赛,不是吗? 有很多免费的AI检测程序可供选择。 好的,以下是这些服务的概述:

Writer.com:

我的故事:96%人工智能1:99%人工智能2:99%人工智能3:100%

我的故事可以保证是百分之百由人类编写的,但在Writer.com的AI内容检测器中得分最低,而ChatGPT的故事则完全逃过了该程序的检测,几乎每次得分都接近完美。

Copyleaks:

我的故事:98.9%的AI 1:99.6%的AI 2:19.5%的AI 3:13.9%

Copyleaks的程序比第一个好得多。尽管它仍然将所有AI文本识别为人类,但仅以19.5%和13.9%的置信度完成了最后两个故事。不过第一个AI故事的得分仍然比我的高!

GPT Zero:

我的故事:完全是人类(困惑度:130,爆发度:22.113)AI 1:完全是人类(困惑度:65,爆发度:43.139)AI 2:完全是人类(困惑度:104.667,爆发度:47.057)AI 3:完全是人类(困惑度:87.750,爆发度:42.074)

GPT Zero 通过测量文本的“困惑度”(随机性)和“突发性”(句子之间困惑度的变化)来工作。该程序未能识别任何 ChatGPT 故事为 AI 生成的,尽管这些故事的每一个困惑度均明显低于我的故事,但在所有情况下,突发性均大约为两倍。

Crossplag: 交叉抄袭检测工具

我的故事:7%AI 1:3%AI 2:3%AI 3:21%

Crossplag检测器的评分系统是反向的:分数越低,文本越有可能是人类编写的。尽管第三个故事接近黄色,但所有三个AI故事都在“人类范围”(绿色)内,其中两个比我的故事得分更高。

幼树:

我的故事:0.0%人工智能1:0.0%人工智能2:0.0%人工智能3:0.0%

尽管被宣传为“最准确的”AI探测器之一,Sapling在所有四个故事中得分为0.0%的AI生成。

Open AI:

我的故事:98.91%人工智能 1:99.27%人工智能 2:97.54%人工智能 3:95.10%

尽管开发了ChatGPT,Open AI自己的输出检测示范无法识别AI生成的故事。它对最后两个的信心略微降低,但仍将ChaptGPT的输出排名为>95%很可能是人类输出,高于许多已确认为人类的文本。

结论我知道这些“测试”实际上并不能衡量写作质量。事实上,其中许多测试将错误作为衡量一段文本有多“人类”的标准。然而,知道AI有可能参加这样的比赛而我们永远不会知道,这确实有些令人沮丧。

我的故事在On the Premises比赛中没有获胜。(在此处阅读获胜者。)在我收到的非常礼貌的拒绝邮件中,他们确实说它是那些未被出版的前10%中的一部分,这还不错。

我们收到了212个参赛作品,选出了七个获胜者。我们想让您知道,即使您的作品没有被选中发表,我们仍将它列为10%(21篇)没有被发表的作品中的最佳作品之一。

我喜欢认为我很擅长识别AI写作,而获胜的作品中似乎没有一个是由AI生成的。甚至ChatGPT生成的版本“我”的故事(并欺骗了检测工具)也有暴露端倪。

AI不能创造。ChatGPT实际上是一个抄袭机器——它以最“可能”的顺序串起词语,这意味着它从互联网上搜刮灵感。人类不是那样工作的。我们的大脑一直在形成新的连接。尽管我们创作的故事也以某种方式是“混音”的——人类也会受到多年来所读的东西的影响——但我们有独特的思考能力。

阅读了获胜故事后,我理解了评委们所追求的。他们的风格与我所提交的略有不同。下一次,我可能会更加迎合他们的口味来参赛。(人类可以这样做:适应、进步,但AI目前还没有这样的能力。)

那么,我能比人工智能写得更好吗?我认为可以。但我并不比那些寻求外包的公司选择免费或廉价的人工智能来获得更高质量的人类内容有更大的优势。

很快就可能变得更难分辨出某个东西是由人工智能还是平庸人类写作的,因此我们都需要提高警惕——并团结起来说“不”于涌入产业的人工智能生成的艺术,特别是当它涉及到人们的生计时。

2023-10-20 17:00:52 AI中文站翻译自原文