英伟达发布Llama-Nemotron系列模型,LN-Ultra凭借253B参数成最强开源模型
发布时间:2025-05-19英伟达近日开源了Llama-Nemotron系列模型,包括LN-Nano 8B、LN-Super 49B和LN-Ultra 253B三个版本,其中LN-Ultra凭借253B参数规模成为当前性能最强的开源模型。该系列由英伟达联合Qwen、DeepSeek-R1等团队开发,基于Llama 3架构优化而来,通过创新的神经架构搜索(NAS)技术提升推理效率,并引入前馈网络融合(FFN Fusion)技术减少计算深度。研究团队特别开发了支持FP8精度的训练框架,在72个8×H100节点上完成总计14万H100小时的强化学习训练,最终使模型在单个8×H100节点上即可高效运行,推理吞吐量显著超越DeepSeek-R1等竞品。
Llama-Nemotron的核心突破在于五阶段训练流程:先通过NAS优化架构,再经知识蒸馏恢复性能,随后采用合成数据监督微调增强推理能力,关键突破来自大规模强化学习阶段——使用课程学习策略在STEM数据集上训练,使LN-Ultra在GPQA-D基准测试中准确率提升27%。该系列首创"detailed thinking on/off"推理开关功能,通过系统提示动态切换标准聊天与复杂推理模式。评估显示,LN-Ultra在GPQA-Diamond和AIME25等推理任务中超越所有开源模型,其49B版本LN-Super甚至在Arena Hard测试中以88.3分击败Claude 3.5 Sonnet等商业模型。研究团队公开的论文详细披露了训练框架设计、数据合成方法及模块替换技术,为开源社区提供了重要参考。
来源:阿尔法公社