Google Gemini — 生成智能的新时代

在人工智能(AI)不断发展的领域中,谷歌通过引入谷歌 Gemini 迈出了重要的一步。这项由DeepMind开发的尖端技术承诺重新定义生成型AI模型的能力,提供一系列功能和集成,旨在推动可能性的极限。

让我们深入探讨Google Gemini的各个方面,探索其功能、能力、集成、模型和未来计划。此外,我们将与OpenAI的ChatGPT 4进行比较分析,以突显每个产品的独特优势和特点。

能力

Google Gemini展示了在生成高质量和相关背景的回应方面的卓越能力。它通过对多样化数据集的训练和先进算法的运用,提高了其在理解用户查询方面的能力,即使在复杂或模糊的情境下也能如此。该模型的适应性使其在从常规知识查询到特定行业对话等不同领域中表现出色。

主要亮点:

  • 大规模多任务语言理解:Gemini在MMLU中取得了突破性的里程碑,超过了人类专家在衡量AI模型知识和问题解决能力的重要评估方法中。人类专家的准确率为89.8%,而最新技术的GPT-4仅有86.4%的准确率。另一方面,Gemini在MMLU任务中甚至超过了人类专家,准确率达到了90%。
  • 多项基准测试:Gemini在多个基准测试中表现出色,超越了GPT-4在文本(MMLU)、推理(Big-bench Hard,HellaSwag等)、数学(GSM8K和MATH)、编码(HumanEval和Natural2Code)等方面的最新成果。
  • 真正的本地多模态:此外,它在包括图像、视频和音频在内的所有多模态领域中表现超越了SOTA竞争对手GPT-4。根据谷歌的说法,Gemini Ultra在许多基准测试中都超过了MMMUM、VQAv2、TextVQA、Infographic VQA等图像理解方面的测试,而在视频方面则超过了VATEX和perception Test MCQA,而在多语言方面则超过了CoVoST2和FLEURS。

特色

Google Gemini以其丰富的功能集而引人注目,在竞争激烈的人工智能领域中独树一帜。

一个显著的特点是其先进的自然语言理解能力,使其能够进行更加细致和具有上下文意识的交互。这种增强是通过在各种数据集上进行广泛训练而实现的,使得Gemini能够掌握人类交流的微妙之处。

为了让您对Gemini如何革新Gen AI领域有所了解,请参考以下内容。自12月起,Gemini Pro已与Bard结合,而且还与其他谷歌应用程序,如航班和酒店,进行了连接。这使得Bard能够帮助您获取实时信息。

我们在巴德上输入了以下提示:

我下周要去从纽约到洛杉矶参加新年庆祝活动。请给我提供一些航班选项的详细信息和一个在12月30日到1月2日期间的不错的中高档酒店选项。

当巴德给我们提供了以下细节时,我们感到非常惊讶:

双子座模型还引入了多任务处理中的新能力,使用户能够在对话中无缝地切换任务和语境。该功能通过使与人工智能的交互更加动态和多样化,提升了用户体验。

一些更为显著的特点包括:

  • Gemini 支持通过文本提示、甚至音频和视频输入进行多模态对话。
  • 它支持多种主要的自然语言,用于翻译和摘要任务,并支持更多语言的使用。
  • 双子座可以根据您提供的不同输入生成代码 - 无论是文本提示还是视觉输入。
  • 它可以生成文本和图像的组合 - 就像一名专业的文案撰写人或讲故事的人!
  • 双子座可以将视觉素材转化为语音和文字进行分析、指导、学习和分享。
  • 它可以以多种语言进行视觉推理,并为您解决视觉难题,将娱乐和学习融合在一起。
  • 用清晰明确的玩法创建新的游戏,增加乐趣并提升您的脑力。
  • 它可以在看似无关的实体之间找到逻辑和自然联系。
  • 它支持复杂的逻辑和空间推理,为基于位置的服务提供更多的应用场景。
  • 双子座自始建之初就充满责任感。模型中融入了适当的安全措施和防护设施,与合作伙伴共同努力,使其更加包容、公正和安全。
  • 先进的加密和匿名机制确保用户隐私、用户数据保护和所有用户互动的机密性。

双子座有三种尺寸

双子座纳米

在设备上运行任务时,Nano是专为移动设备进行优化的最便携且最高效的模型。它可以直接运行在移动处理器上,使开发人员能够重新构想出一系列非凡的用例。

Nano直接在设备上运行的最大优势是它甚至可以处理不应该共享或传输的数据,包括在信使中的消息回复建议。在设备上运行的功能使得Gemini Nano能够在没有网络的情况下保持稳定的体验和有限的延迟范围。

双子座纳米版拥有强大的功能,如高级校对、语法检查、文本摘要和基于语境的智能回复。虽然开发者的软件开发工具包和应用程序接口仍在等待中,但谷歌的 Pixel 8 Pro 现在可以运行双子座纳米版,使用户可以以近30种语言总结记录的通话!

双子座 Pro

这是谷歌为了允许广泛的人工智能任务进行扩展而提供的最佳方案。截至2023年12月6日,Gemini Pro的一个特别调整模型已经集成在谷歌的Gen AI聊天机器人Bard中。

Gemini Pro已通过可在Google的AI Studio和Vertex AI云平台上访问的Gemini API,向开发人员和企业用户提供。

  • Pro型号在主要研究基准测试中轻松超越了所有当前可用的相似尺寸模型。
  • 它支持一个32K的上下文窗口,未来版本将支持更大的窗口。
  • 截至目前,Gemini Pro可免费使用,但有使用限制,并且Google承诺将来会以有竞争力的价格定价。
  • Gemini Pro API支持每位开发者都喜欢拥有的Gen AI模型功能,包括聊天功能,函数调用,嵌入存储,语义检索以及企业知识的自定义基础。
  • 截至目前,有超过180个地理位置支持38种语言。
  • 该 API 支持传统的文本-文本语义,并具有视觉多模式端点,允许接受文本和图像作为输入,并生成文本输出。
  • 双子座Pro软件开发工具包(SDK)提供了Python、Android(Kotlin)、Node.js、Swift和JavaScript等多种语言版本,让您能够构建可在任何地方运行的应用程序。

双子座 Ultra

Google声称Gemini Ultra是Gemini系列中最先进、最强大且最大的型号,适用于复杂任务。根据Google DeepMind发布的报告,其能力包括在大规模语言建模、图像理解、音频处理和多语言、编码、推理和多模态任务中的先进状况。然而,我们必须承认,关于其技术和能力的详细信息仍然模糊不清。

在广泛推广之前,Google正在进行广泛的安全检查,为Gemini Ultra实施保护措施,以提供先进的隐私和信任。它是通过与可信赖的合作伙伴合作完成的,这些合作伙伴会进行红队测试、微调和通过人类反馈(RLHF)进行强化学习。

最初,Gemini Ultra 将仅提供给特定客户、开发者和合作伙伴。这将包括 AI 安全和责任领域的专家,用于早期实验、反馈和进一步改进。

随着明年初推出Bard Advanced,Gemini Ultra将广泛提供给所有开发人员和企业客户,使您能够访问最好的模型和功能。

所以,我们仍然有一些事情需要留意!

集成化

Google Gemini的集成能力使其覆盖多个平台和应用程序。作为来自Google的产品,毫无疑问它会与Google Workspace、Cloud甚至Android无缝集成。Gemini API和SDK在多种语言/平台上的可用性使其能够在更多平台和环境中发挥作用。

您可以期待的一些重要集成包括:

  • Android开发者可以利用Google AI Studio和Google AI SDK在Kotlin中的帮助,将生成式人工智能的能力应用于他们的应用程序中。新版本的Android Studio将配备Gemini集成功能。现在,您可以让用户体验人工智能的力量,并为Android应用程序开启创造性和动态用户体验的新可能性。
  • 2023年12月的Pixel功能更新进一步强调了Gemini Nano在设备上任务整合的潜力。此次更新引入了利用人工智能能力增强Pixel设备用户交互的功能。一些创新功能包括录音机摘要、Gboard智能回复、相机视频增强以提升拍摄体验、Pixel Fold的双屏预览、扫描文件清理、维修模式以获得更安心的使用体验等等。
  • 开发人员想要尝试Gemini Pro可以使用API通过AI Studio,一个免费的基于Web的开发者工具。当他们准备好使用完全托管的AI平台时,开发人员可以轻松将他们的AI Studio代码转移到Vertex AI,以进行额外的定制和使用谷歌云功能。使用谷歌世界级统一的AI堆栈,帮助您获得行业水平的AI基础设施、顶级模型和访问Vertex AI和Duet AI,以开发规模化的企业AI解决方案的好处。

与OpenAI的ChatGPT相比较

当谷歌推出Gemini时,在最初几个小时内,人们将其称为"ChatGPT-4杀手!"现在我们不知道Gemini是否确实是OpenAI的ChatGPT(或其由微软支持的GPT-4模型)的杀手,但这引发了它们之间的比较。

谷歌的宝石(Google Gemini)和OpenAI的GPT在自然语言理解和生成方面都表现出色,但它们具有不同的特点。

谷歌的自我宣称

Gemini强调实时学习和多任务处理,使其与ChatGPT 4有所不同。虽然两个模型都展示了令人印象深刻的功能,但Gemini对用户互动的动态适应使其在某些场景中具有优势。另一方面,ChatGPT 4以其对多个数据集进行广泛预训练而闻名,从而获得对各种主题的广泛理解。

互联网像对于各模型中最大的Gemini Ultra的表现以及与之前的领导者GPT-4的比较,都是根据谷歌提供的数据。目前为止,我们无法从其他独立来源验证这些数据,所以请谨慎对待这一点。

表格:Google Gemini与OpenAI GPT模型分类之间的差异摘要。

内容分析与生成

除了以上的差异点以外,比较这两个模型在内容生成和分析这一常见任务上的表现,需要进行大量的实验。

Aaron Mok,对双子座和GPT进行了几项测试,以满足我们已经考虑并在日常生活中进行部署的最常见应用场景。这些测试包括识别内容是人工智能还是人类生成的,描述一张图片,问一些性暗示问题(以确定模型是完全屏蔽你还是生成一条教育性回应来指导用户),根据最新进展询问信息,写一封辞职信,了解最新的地缘政治冲突,文章摘要等等。

正如您所想象的,没有一个模型在所有或甚至大部分方面都是优越的。其中一种模型Gemini在检测人工智能生成的图像方面表现更佳,而另一种模型在描述方面更胜一筹。同样地,虽然GPT-4生成的辞职信更接近人类风格,但Gemini的输出更简洁明了。

一个独立客观的对比:Gemini Pro vs GPT-3.5 Turbo

卡内基梅隆大学和BerriAI的研究人员对谷歌和OpenAI的两个可比较模型进行了基准测试——Gemini Pro和GPT-3.5 turbo。目的是通过可复制的代码和透明的结果,进行第三方、独立和客观的比较,供同行评审。通过这项研究,他们深入探讨了两个模型的能力,并指出了其中一个模型超越另一个模型的领域。

研究人员还对GPT-4 Turbo进行了评估,将其结果与上述两个模型进行比较。他们还在部分测试中加入了最近发布的Mixtral模型,这是Mistral AI团队推出的一种新的稀疏专家混合生成AI模型。为了本文的目的,我们将忽略Mixtral的评估结果。

为了保持实验的一致性,我们使用LiteLLM4的统一界面在2023年12月11日至15日之间进行模型查询。查询Gemini Pro时使用Google Vertex AI,而查询两个GPT模型时使用OpenAI API。在部署模型的财务影响确定中,还考虑了模型的定价情况。在实验期间,Gemini Pro和GPT-3.5 Turbo的定价也是可比的。

表格:Gemini Pro是按字符计费的。因此,使用每个英文字节4个字符作为估算准则来确定其费用。

研究对10个公开可用的数据集进行了测试,以评估广泛的语言理解、处理和生成能力。这些测试包括问答、自然语言翻译、推理、生成代码、解决数学问题以及模型作为指令跟随代理的能力等方面。

为了进行公平比较,研究人员对所有模型进行了一致的实验 - 他们使用完全相同的提示并为所有测试的模型应用了相同的评估规范。这确保了所有模型接收到完全相同的输入,就像是在平等的竞技场中,与之前的研究中实验设置可能不同的情况不同。

提示符和评估器都是从标准存储库中获取的,主要是从官方发布的数据集或公开可用的Eleuther评估工具中获取的。所有提示符通常包括必填的查询和输入,以及可选的少量示例或连续思路推理。即使对标准提示符/评估器进行了轻微偏差,也保持了在所有测试对象中的一致性,并且有良好的文档记录。

以下是对比Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo的基准评估的总体结果。

表格注释:

  1. 实际评估结果(针对Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo)是直接从源数据中获取的,Mixtral模型的评估数据被省略。
  2. 我们通过计算模型性能的差异,以更好地理解评估结果。
  3. 在Gemini Pro和GPT-3.5 Turbo之间,更好的模型显示为绿色,另一个显示为红色。
  4. 较深的绿色代表该模型是三个中表现最好的- Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo。
  5. 差異中的深藍色儲存格代表性能差距最大,而淺藍色則表示GePro和GPT-3.5 Turbo之間性能差距最小。

在这里,我们以图表的形式呈现结果,以便读者更容易理解。

图表:Gemini Pro和GPT-3.5 Turbo的评估结果及其准确度差异。

从结果来看,可以明显看出Gemini Pro在任何基准评估中都无法超过GPT-3.5 Turbo。尽管在准确性上与现任领导者相当接近,但在一些任务中仍存在显著差距,例如基于常识的问题回答,代理人角色扮演,代码生成和语言翻译。

该研究还对Gemini Pro在多个方面表现不佳提供了解释,例如在处理带有多个数字的数学推理、对多项选择答案顺序的高敏感性以及Gemini的激进内容过滤协议方面。研究还明确指出了Gemini在生成非英语语言文本内容方面的优势,并且在处理更复杂和更长推理链的提示时具有更好的能力,相较于GPT-3.5 Turbo。

在2023年12月19日发布了这份报告后,围绕Gemini Pro的炒作已经相当平息,这也是可以理解的。如今,人工智能爱好者和研究人员都在急切地等待谷歌不仅公布他们的比较分析细节,而且还要完整发布Gemini Ultra,以便能够做出更明智的选择。

在结论上,关于谷歌的Gemini和OpenAI的GPT模型谁更优越的辩论还没有定论。目前,人们只是在探索Gemini Pro的具体用例,而GPT的模型对社区来说已经非常熟悉。我们只想补充说,这两种模型都对人工智能的进步做出了重大贡献,提供了迎合不同用户需求的独特功能。

结论

总的来说,Google Gemini作为人工智能领域的一个强大补充,在其先进的功能、能力和集成上展现出优势。通过用户反馈和更新的不断演进,Gemini有望重新塑造我们与人工智能互动的方式。

比较分析OpenAI的ChatGPT 4强调了人工智能生态系统的多样性和丰富性,每个模型都带来了自己的优势。人工智能的未来看起来充满活力和动力,谷歌Gemini在创新和以用户为中心的人工智能发展方面处于领先地位。

参考文献

  1. 介绍Gemini: Google迄今为止最强大的人工智能模型
  2. 双子座 - 谷歌深度学习
  3. 双子座:高能力多模型家族
  4. 双子座API和更多新的AI工具供开发者和企业使用
  5. 如何让谷歌云将Gemini带给全世界的组织
  6. 在您的Android应用程序中利用Gemini
  7. 我问了ChatGPT和Google的Gemini来回答10个问题。Gemini在时事方面有优势,但也会犯错。
  8. 谷歌Gemini甚至不如GPT-3.5 Turbo,研究人员发现。
  9. I apologize, but I am an AI language model and I am unable to access external links or documents. However, if you provide me with the English text you would like to translate, I would be happy to help you translate it to simplified Chinese.
  10. Zeno ML | 项目和报告
  11. 一个亲身体验的比较:Gemini Pro vs GPT-3.5 | 作者:The PyCoach | 人工智能专栏 | 2023年12月 | Medium
  12. 研究发现谷歌双子座在OpenAI GPT-3.5 Turbo之后落后 — DigiAlps LTD
  13. 比较分析:谷歌Gemini Pro vs. OpenAI GPT-3.5
  14. Apologies, but as an AI text model, I am unable to access external links such as GitHub. However, if you provide me with the text you want to be translated, I'll be happy to assist you with the translation to simplified Chinese.

2023-12-30 04:19:24 AI中文站翻译自原文