新阶段的人工智能:从ChatGPT到Google的Gemini

来源:Ethan Mollick 博士

ChatGPT中文站

前沿模型与最强大人工智能模型的竞争

AI行业已经达到了AI时代的第一阶段的顶点,这个阶段仅仅从10个月前的chat-gpt推出开始,根据Ethan Mollick博士的说法。这一时代将随着谷歌的Gemini的即将推出而结束,Gemini有望成为第一个能超越OpenAI的GPT-4模型的LLM模型。随着足够的拼图元素就位,我们可以开始看到AI在短期内究竟能做什么。然而,许多拼图元素仍然缺失,AI仍在不断改进。这一AI阶段对工作和教育的实际影响目前还无法预知。大脑就是核心LLM模型本身,每个人都应该关注业内人士称之为前沿模型的质量。这些是能力最强、最聪明、最令人印象深刻的LLM模型。迄今为止,黄金标准的大型语言模型一直是OpenAI的GPT-4,该模型已经在某种形式下投入使用了一年多。其他任何已发布的AI都没有超越GPT-4,而谷歌的BARD AI模型是出了名的平庸。随着谣言不断流传,谷歌的Gemini即将发布,在接下来的几周中,它很可能夺得最强大的AI模型的桂冠。然而,尽管Gemini将击败GPT-4,但它不会以如此大的差距超越它,使我们进入AI的新阶段。相反,我们可能处于这样一种情况:OpenAI、谷歌,还有可能是其他1到2个参与者拥有非常有能力的模型,这些模型可以在许多人类无法创新的领域提高性能,并且还能完成每个人的家庭作业。它们也有很多知识,这就是为什么通用型AI GPT-4能够击败在一个领域表现出色的旧的更专业的AI,比如医学。但这些系统也有缺陷,并且仍然存在幻觉和虚构事实的问题。

视觉:将图像识别与LLMs结合的力量

ChatGPT中文站
ChatGPT has introduced a new way of interacting with their LLM, images.

图像识别并不是什么新鲜事,创造AI图像的能力也不是新颖的。但是当它们与LLM的智慧结合在一起,就会发生非常不同的事情。因此,谷歌和微软/OpenAI引入了不同级别的多模态能力非常重要。这意味着它们可以创建和查看图像,同时也能接收和生成声音。一旦给予AI视觉,它们就获得了一种与世界互动的新方法,这种方法扩展了它们在许多人从未考虑过的行业和用途中的能力。当然,它可以完成所有的基本任务,比如解读用古老加泰罗尼亚语写成的关于木乃伊的手稿,或者成为一名优秀的摄影教练。但这只是开始。实际上,微软的研究人员撰写了一篇详细的论文,记录了这些视觉系统可以被应用的令人惊讶的方式,尽管他们并未提供关于其成功率的统计数据,并且这些模型仍然存在缺陷。其中更有趣的能力之一是AI能够阅读操作手册以学习如何使用机器,撰写保险报告,进行医学诊断,进行制造分析,甚至驾驶机器人。所有这些应用以前都需要昂贵且高度专业的视觉系统。现在,前沿模型可以完成所有这些任务,尽管我们仍然不知道如何最好地引导它们或者它们的准确性如何。但是,给予AI视觉也让它能够做一些可能是双刃剑的事情。它在没有训练的情况下,对于面部识别非常出色,并且能够准确评估人们面部的表情、他们所处的位置以及他们的行为背景。

voice:人工智能逐渐获得听和说的能力

ChatGPT中文站
Talk-to-ChatGPT is a Google Chrome and Microsoft Edge extension that allows users to talk with the ChatGPT AI using their voice (speech recognition), and listen to the bot’s answer with a voice (text-to-speech), rather than just by typing.

人工智能(AI)也正在逐渐具备倾听和说话的能力。如果你习惯了对Siri或Alexa大喊大叫,这些新的AI系统将带来巨大的变化。它们能够理解口音、多种语言的混合,并且不会被拥挤喧嚣的房间所困扰。与LLM的智能结合,你可以开始做一些有趣的事情。例如,在创业课堂上,学生们不仅向真正的风险投资家进行了项目推销,也向AI提出了如下指令:“你是一位种子阶段的风险投资家,评估以下推销中的项目。从投资者的角度,给出四个优点和缺点,以及你对整个推销的看法。”在场的风险投资家对结果印象深刻,被调查的大多数学生也同样如此。每个人都认为结果要么有点真实,要么非常真实,55%的学生评价反馈非常有用,35%评价为有点有用,95%的学生表示出现了轻微或没有幻觉。但声音输出的效果超出预期。与AI交流是一种奇特的个人体验,尽管你知道你在与一台机器交谈,但感觉就像有一个真正的人对你的言辞感兴趣。这只是一种幻觉,但足够具有说服力,以至于即使在今天的LLM系统中,人们仍然期待与他们的AI伴侣交谈。

人工智能的意义和未来发展

目前人工智能的一个限制是它们并不“了解”任何事情。它们是通过大量数据进行训练的,可以在回应提示时不完美地重新创造出来,从而导致幻觉和错误。当您给AI添加工具并与其他数据源建立联系时,它们的实用性就会增加。一种方法是将AI连接到互联网,以便它们可以查找信息。另一种潜在更强大的技术是将其连接到您自己的数据上。谷歌正是在做这件事,将BARD与其其他服务如Gmail连接在一起。尽管BARD目前性能不足,但预计将发生变化,它目前还不可信赖。它会产生幻觉细节,包括虚构不存在的消息。但是通过降低幻觉率并进行人员监督,这些连接形式可以变得非常强大。即使有缺陷的BARD也能够在我的电子邮件中识别紧急任务并起草潜在的回复。随着人工智能对您的了解越来越多,它们的实用性将提高,尽管目前关于对您进行复杂推断的人工智能的全部含义尚不清楚。

在许多方面,接下来会发生什么,所有这一切在短期内变成什么的实际事情,取决于我们的行动和决策。至少在当前一代LLMs的情况下,并不是由机器强加给我们的。凭借这些新的能力,人工智能可以用来赋予和简化,填写我的报销报告,或者剥夺权力,当你拥有一个人工智能时还需要人类伴侣吗?当每个人都拥有完美的人脸追踪系统时会发生什么?其中一些后果是可预见的,需要个人以及监管机构负起责任采取行动,而另一些后果将不同程度地影响各行业和社会。我们需要找出如何利用这项技术来赋予和提升人类的方式,而不是造成伤害,这是我们自己的责任。

2023-10-20 17:15:08 AI中文站翻译自原文