谷歌发布最新的巴德·金宁模型,与基于人类评估的GPT-4相媲美。
谷歌的最新发布是Bard Gemini模型,经过人类评估发现其达到与GPT-4相同水平。下方图片展示了这个全新模型:
根据Google深度学习领导人、Gemini共同负责人Oriol Vinyals的说法,语言模型的评估是一项复杂的任务,学术评估可能会影响用于人工智能模型训练的数据。
根据Vinyals的说法,人类评估要好得多,并且他们对Bard Gemini Pro(免费版)在lmsys上取得的高排名感到满意,这表明Gemini Ultra的性能可能更好。
使用ChatGPT时探索一些强大的提示信息
根据早期评论,谷歌的傻瓜聊天机器人正在利用最近开发的Gemini模型,并且在性能方面被与GPT-4进行了比较。
新的Gemini型号的发布是由谷歌人工智能(AI)负责人杰夫·迪恩(Jeff Dean)宣布的。该型号属于Gemini Pro系列,被命名为“尺度”。
迪安报告称,最近的双子座更新大大提升了巴德的性能,并新增了许多功能,超越了三月份的初始版本。
根据迪恩所说,“规模”这个术语并没有明确定义,但根据其名称可以推断它可能是先前Pro模型的扩展版本。然而,研究表明,即使是Pro模型在基准测试中也无法与GPT-3.5(一个免费的ChatGPT模型)相媲美。
Google的Pro型号在the-decoder.com关于Google人工智能模型Gemini Pro和Gemini Ultra发布的文章中被排名较低,而Gemini Ultra则是仍未推出的旗舰产品。
GPT-Pro的“规模”在人类评估方面与GPT-4相匹配。
令人惊讶的是,最新版本的专业型号立即在客观的聊天机器人竞技排行榜上获得第二名,超越了两个GPT-4模型0314(2023年3月)和0613(2023年夏季),但落后于GPT-4 Turbo(2023年11月)。新引入的Bard模型是突破GPT-4系列的先驱。
聊天机器人竞技场采用了与国际象棋和电子竞技中相同的Elo评分系统,以评估和对比各种语言模型的效果。在竞技场中,不同的模型将匿名、随机选择地进行对决,以相互之间进行竞争。
用户通过投票与模特互动并表达自己的选择。这一投票过程用于确定模特在排行榜上的位置。尽管平台记录所有用户互动,但仅对匿名投票进行考虑,意味着用户没有要求模特的姓名。
ChatGPT提示生成独特的销售产品
由于用户评级和感知质量的主观性,Chatbot Arena的结果可能会偏离标准综合评估的结果。
主要问题在于新的巴德模型仅被评估了大约3,000次,而GPT-4模型已经被评估了多达30,000次。这给结果带来了潜在的变化空间,但是在基准测试中的差异通常是微小的。目前还没有其他关于GPT Pro-Scale的基准测试结果可供参考。
相关文章:非销售式销售的5个强大ChatGPT提示
Google达成了一个重要的里程碑,这引起了人们对他们即将推出的Gemini Ultra AI模型的好奇。预计这个新模型将超越Gemini Pro-Scale的能力。
Markdown格式保留了文本的结构,同时改变了文本的结构而不改变其上下文或意义。