敲敲，谁在门口？

免责声明：本文是为NMIMS大学的技术写作课程而写的作业。

什么是意识？人造机器真的能思考吗？大脑中的神经元真的就构成心智，还是有一种无形的火花在其核心？对许多人来说，这些问题是人工智能未来至关重要的考虑因素。但是，英国计算机科学家艾伦·图灵决定忽略所有这些问题，转而提出一个更简单的问题：计算机能否像人类一样说话？

这个问题引发了一个用于测量人工智能的想法，后来被称为图灵测试。在1950年的论文《计算机及智能》中，图灵提出了以下游戏。一个人类法官与看不见的玩家进行文本对话，并评估他们的回应。要通过测试，计算机必须能够替代其中一个玩家而不会显着改变结果。换句话说，如果计算机的对话与人类的无法轻易区分，那么它就被认为具有智能。

今天的世界与1950年代有很大不同。我们在线与人工智能的互动不仅比以往任何时候都多，而且比我们意识到的还要多。ChatGPT-4是第一个通过图灵测试的人工智能。研究人员模仿这个著名的测试，要求500名参与者与四个不同的代理人交谈：三个人工智能和一个人类。

以下是AI：ChatGPT-4，ChatGPT-3.5和一个名为ELIZA的1960年代聊天程序。虽然过时的ELIZA只有22%的时间被愚弄，但ChatGPT-3.5在50%的对话中未被检测到。 ChatGPT-4表现得更好，参与者将其标记为人类的情况占54%。如果这看起来很低，值得注意的是，参与者只在67%的对话中正确识别人类。

直到今天，图灵测试是了解人工智能更多的有价值工具。它确实有一些限制，这些限制在我们寻求理解和改进人工智能时也很重要。

测试无法确定机器是否真正智能，即是否真正理解参与的对话。
人类评委的评估将是主观的，基于他们对人类沟通方式的理解。
人类评判者可能对一些测试问题涉及的知识受到限制，从而导致“同伙效应”，这指的是当人类对话者被错误地识别为机器时的情况。

总的来说，尽管图灵测试提供了一个迷人的窥视人工智能不断发展能力的机会，但它仍然是一个复杂且微妙的真正智能衡量标准。随着我们不断发展和完善人工智能技术，我们必须认识到这一测试的局限性以及人类评估的主观性。在模拟类似人类对话和拥有真正理解之间的区别仍然模糊的情况下，引发了对意识本质和思维本质的深入探讨。在我们航行这个有趣的领域时，我们必须牢记人工智能的潜力和陷阱，促进一种关于不仅机器如何模仿我们，而且什么是真正智能的对话。

参考资料

图灵测试：计算机能够通过人类吗？ — Alex Gendler (youtube.com)

ChatGPT通过了人类智能的著名“图灵测试”（msn.com）

什么是图灵测试？定义、示例和如何进行您自己的测试 | Coursera