新阶段的人工智能：从ChatGPT到Google的Gemini

来源：Ethan Mollick 博士

前沿模型与最强大人工智能模型的竞争

AI行业已经达到了AI时代的第一阶段的顶点，这个阶段仅仅从10个月前的chat-gpt推出开始，根据Ethan Mollick博士的说法。这一时代将随着谷歌的Gemini的即将推出而结束，Gemini有望成为第一个能超越OpenAI的GPT-4模型的LLM模型。随着足够的拼图元素就位，我们可以开始看到AI在短期内究竟能做什么。然而，许多拼图元素仍然缺失，AI仍在不断改进。这一AI阶段对工作和教育的实际影响目前还无法预知。大脑就是核心LLM模型本身，每个人都应该关注业内人士称之为前沿模型的质量。这些是能力最强、最聪明、最令人印象深刻的LLM模型。迄今为止，黄金标准的大型语言模型一直是OpenAI的GPT-4，该模型已经在某种形式下投入使用了一年多。其他任何已发布的AI都没有超越GPT-4，而谷歌的BARD AI模型是出了名的平庸。随着谣言不断流传，谷歌的Gemini即将发布，在接下来的几周中，它很可能夺得最强大的AI模型的桂冠。然而，尽管Gemini将击败GPT-4，但它不会以如此大的差距超越它，使我们进入AI的新阶段。相反，我们可能处于这样一种情况：OpenAI、谷歌，还有可能是其他1到2个参与者拥有非常有能力的模型，这些模型可以在许多人类无法创新的领域提高性能，并且还能完成每个人的家庭作业。它们也有很多知识，这就是为什么通用型AI GPT-4能够击败在一个领域表现出色的旧的更专业的AI，比如医学。但这些系统也有缺陷，并且仍然存在幻觉和虚构事实的问题。

视觉：将图像识别与LLMs结合的力量

图像识别并不是什么新鲜事，创造AI图像的能力也不是新颖的。但是当它们与LLM的智慧结合在一起，就会发生非常不同的事情。因此，谷歌和微软/OpenAI引入了不同级别的多模态能力非常重要。这意味着它们可以创建和查看图像，同时也能接收和生成声音。一旦给予AI视觉，它们就获得了一种与世界互动的新方法，这种方法扩展了它们在许多人从未考虑过的行业和用途中的能力。当然，它可以完成所有的基本任务，比如解读用古老加泰罗尼亚语写成的关于木乃伊的手稿，或者成为一名优秀的摄影教练。但这只是开始。实际上，微软的研究人员撰写了一篇详细的论文，记录了这些视觉系统可以被应用的令人惊讶的方式，尽管他们并未提供关于其成功率的统计数据，并且这些模型仍然存在缺陷。其中更有趣的能力之一是AI能够阅读操作手册以学习如何使用机器，撰写保险报告，进行医学诊断，进行制造分析，甚至驾驶机器人。所有这些应用以前都需要昂贵且高度专业的视觉系统。现在，前沿模型可以完成所有这些任务，尽管我们仍然不知道如何最好地引导它们或者它们的准确性如何。但是，给予AI视觉也让它能够做一些可能是双刃剑的事情。它在没有训练的情况下，对于面部识别非常出色，并且能够准确评估人们面部的表情、他们所处的位置以及他们的行为背景。

voice：人工智能逐渐获得听和说的能力

人工智能（AI）也正在逐渐具备倾听和说话的能力。如果你习惯了对Siri或Alexa大喊大叫，这些新的AI系统将带来巨大的变化。它们能够理解口音、多种语言的混合，并且不会被拥挤喧嚣的房间所困扰。与LLM的智能结合，你可以开始做一些有趣的事情。例如，在创业课堂上，学生们不仅向真正的风险投资家进行了项目推销，也向AI提出了如下指令：“你是一位种子阶段的风险投资家，评估以下推销中的项目。从投资者的角度，给出四个优点和缺点，以及你对整个推销的看法。”在场的风险投资家对结果印象深刻，被调查的大多数学生也同样如此。每个人都认为结果要么有点真实，要么非常真实，55%的学生评价反馈非常有用，35%评价为有点有用，95%的学生表示出现了轻微或没有幻觉。但声音输出的效果超出预期。与AI交流是一种奇特的个人体验，尽管你知道你在与一台机器交谈，但感觉就像有一个真正的人对你的言辞感兴趣。这只是一种幻觉，但足够具有说服力，以至于即使在今天的LLM系统中，人们仍然期待与他们的AI伴侣交谈。

人工智能的意义和未来发展

目前人工智能的一个限制是它们并不“了解”任何事情。它们是通过大量数据进行训练的，可以在回应提示时不完美地重新创造出来，从而导致幻觉和错误。当您给AI添加工具并与其他数据源建立联系时，它们的实用性就会增加。一种方法是将AI连接到互联网，以便它们可以查找信息。另一种潜在更强大的技术是将其连接到您自己的数据上。谷歌正是在做这件事，将BARD与其其他服务如Gmail连接在一起。尽管BARD目前性能不足，但预计将发生变化，它目前还不可信赖。它会产生幻觉细节，包括虚构不存在的消息。但是通过降低幻觉率并进行人员监督，这些连接形式可以变得非常强大。即使有缺陷的BARD也能够在我的电子邮件中识别紧急任务并起草潜在的回复。随着人工智能对您的了解越来越多，它们的实用性将提高，尽管目前关于对您进行复杂推断的人工智能的全部含义尚不清楚。

在许多方面，接下来会发生什么，所有这一切在短期内变成什么的实际事情，取决于我们的行动和决策。至少在当前一代LLMs的情况下，并不是由机器强加给我们的。凭借这些新的能力，人工智能可以用来赋予和简化，填写我的报销报告，或者剥夺权力，当你拥有一个人工智能时还需要人类伴侣吗？当每个人都拥有完美的人脸追踪系统时会发生什么？其中一些后果是可预见的，需要个人以及监管机构负起责任采取行动，而另一些后果将不同程度地影响各行业和社会。我们需要找出如何利用这项技术来赋予和提升人类的方式，而不是造成伤害，这是我们自己的责任。