Illustration by Patrick Smith

敲敲,谁在门口?

免责声明:本文是为NMIMS大学的技术写作课程而写的作业。

什么是意识?人造机器真的能思考吗?大脑中的神经元真的就构成心智,还是有一种无形的火花在其核心?对许多人来说,这些问题是人工智能未来至关重要的考虑因素。但是,英国计算机科学家艾伦·图灵决定忽略所有这些问题,转而提出一个更简单的问题:计算机能否像人类一样说话?

这个问题引发了一个用于测量人工智能的想法,后来被称为图灵测试。在1950年的论文《计算机及智能》中,图灵提出了以下游戏。一个人类法官与看不见的玩家进行文本对话,并评估他们的回应。要通过测试,计算机必须能够替代其中一个玩家而不会显着改变结果。换句话说,如果计算机的对话与人类的无法轻易区分,那么它就被认为具有智能。

今天的世界与1950年代有很大不同。我们在线与人工智能的互动不仅比以往任何时候都多,而且比我们意识到的还要多。ChatGPT-4是第一个通过图灵测试的人工智能。研究人员模仿这个著名的测试,要求500名参与者与四个不同的代理人交谈:三个人工智能和一个人类。

以下是AI:ChatGPT-4,ChatGPT-3.5和一个名为ELIZA的1960年代聊天程序。虽然过时的ELIZA只有22%的时间被愚弄,但ChatGPT-3.5在50%的对话中未被检测到。 ChatGPT-4表现得更好,参与者将其标记为人类的情况占54%。如果这看起来很低,值得注意的是,参与者只在67%的对话中正确识别人类。

直到今天,图灵测试是了解人工智能更多的有价值工具。它确实有一些限制,这些限制在我们寻求理解和改进人工智能时也很重要。

  1. 测试无法确定机器是否真正智能,即是否真正理解参与的对话。
  2. 人类评委的评估将是主观的,基于他们对人类沟通方式的理解。
  3. 人类评判者可能对一些测试问题涉及的知识受到限制,从而导致“同伙效应”,这指的是当人类对话者被错误地识别为机器时的情况。

总的来说,尽管图灵测试提供了一个迷人的窥视人工智能不断发展能力的机会,但它仍然是一个复杂且微妙的真正智能衡量标准。随着我们不断发展和完善人工智能技术,我们必须认识到这一测试的局限性以及人类评估的主观性。在模拟类似人类对话和拥有真正理解之间的区别仍然模糊的情况下,引发了对意识本质和思维本质的深入探讨。在我们航行这个有趣的领域时,我们必须牢记人工智能的潜力和陷阱,促进一种关于不仅机器如何模仿我们,而且什么是真正智能的对话。

参考资料

图灵测试:计算机能够通过人类吗? — Alex Gendler (youtube.com)

ChatGPT通过了人类智能的著名“图灵测试”(msn.com)

什么是图灵测试?定义、示例和如何进行您自己的测试 | Coursera

2024-10-04 04:26:30 AI中文站翻译自原文