英伟达Nemotron-70B:新的LLM击败了GPT-4o和Claude 3.5
在生成式人工智能竞赛中领先的顶尖LLM
现在已经成为常规惯例:由一个模型设定的生成式AI基准,将在接下来的10天或一个月内被另一个打破。在这个生成AI超级竞赛中,NVIDIA创造了新记录,发布了一个基于开源Llama3.1的模型Nemotron-70B,击败了像GPT4o和Claude3.5 Sonnet这样的主要竞争对手。
最好的部分在于这个模型只有70B个参数,相比之下远远少于Claude3.5或GPT4o。
它在各种评估指标上取得了令人印象深刻的分数:
竞技场难度:85.0
羊驼评估 2 LC:57.6
MT-Bench:8.98
您可以比较一下为什么Nemotron相对于其他SOTA LLMs被视为一件大事。
Model ArenaHard AlpacaEval2LC MT-Bench
Llama-3.1-Nemotron-70B 85.0 57.6 8.98
Claude 3.5 Sonnet 79.2 52.4 8.81
GPT-4o 79.3 57.5 8.74
这些指标将其置于自动对齐基准排行榜的榜首,超过了像Claude 3.5 Sonnet和Llama 3.1 405B这样的竞争对手。
如果这是你第一次听说这些指标:
- Arena Hard: 这个分数反映了模型在Arena-Hard基准测试上的表现,该基准测试包括了500个具有挑战性的用户查询,这些查询来自于Chatbot Arena,这是一个用于评估语言模型的群策群力平台。
- 阿帕卡评估2 LC:此指标衡量在阿帕卡评估基准上的性能,重点关注模型对指令提示做出准确响应的能力。它利用固定的805个指令集(全部为单轮提示),这些指令集代表了典型用户交互,来源于阿帕卡农场评估集。该数据集旨在反映 LLMs 面临的各种任务和挑战的多样性。
- MT-Bench:该分数表示模型在MT-Bench上的表现,该评估通过将回答与基准(GPT-4-Turbo)在各种指标上进行比较。该基准由80个高质量的多轮问题组成,挑战LLM的对话能力。这些问题旨在评估对话流程和遵循指导能力的各个方面。
NVIDIA的Nemotron有什么独特之处?
多个事物,主要
RLHF 使用 REINFORCE 算法
为RLHF(即Llama-3.1-Nemotron-70B-Reward & HelpSteer2-Preference Prompts)提供新的奖励模型。
什么是RLHF?
- 该模型利用了REINFORCE算法,这是一种政策梯度方法,根据人类评估者的反馈更新模型的参数。这种方法使模型能够从错误中学习,并通过最大化其输出的预期奖励来不断改进。
如果您想阅读有关
强化算法
两种特定的奖励模型被纳入训练中:
- Llama-3.1-Nemotron-70B-奖励: Llama-3.1-Nemotron-70B-奖励的主要功能是充当奖励模型,评估对话环境中回应的质量。它评估助手回应对话的最终转变,提供一个奖励分数,表示该回应的质量。
奖励模型是RLHF背景下的关键组成部分。它的作用是将人类偏好转化为数值,从而指导AI代理的行为。
- HelpSteer2-偏好提示:这些提示通过将用户偏好整合到训练数据中,引导模型生成更有帮助和相关的答案。
帮助引导2-偏好提示
它包括对各种任务的详细用户反馈,捕捉特定偏好和整体评分。
偏好注释:用户指出他们的偏好回答并提供选择原因,丰富数据集。
注释随附人工编写的理由,为用户偏好提供背景解释。
过滤出在标注者之间存在显著分歧的任务,以确保高质量的数据。
如何使用这个模型?
免费接口可在此处获得
在本页底部列出了详细的步骤。
用这个方法,就算完成了。尝试使用在模型页面提到的NVIDIA NIMs模型!