当前位置：动态资讯

英伟达发布Llama-Nemotron系列模型，LN-Ultra凭借253B参数成最强开源模型

发布时间：2025-05-19

英伟达近日开源了Llama-Nemotron系列模型，包括LN-Nano 8B、LN-Super 49B和LN-Ultra 253B三个版本，其中LN-Ultra凭借253B参数规模成为当前性能最强的开源模型。该系列由英伟达联合Qwen、DeepSeek-R1等团队开发，基于Llama 3架构优化而来，通过创新的神经架构搜索（NAS）技术提升推理效率，并引入前馈网络融合（FFN Fusion）技术减少计算深度。研究团队特别开发了支持FP8精度的训练框架，在72个8×H100节点上完成总计14万H100小时的强化学习训练，最终使模型在单个8×H100节点上即可高效运行，推理吞吐量显著超越DeepSeek-R1等竞品。

fr4.1.jpg

Llama-Nemotron的核心突破在于五阶段训练流程：先通过NAS优化架构，再经知识蒸馏恢复性能，随后采用合成数据监督微调增强推理能力，关键突破来自大规模强化学习阶段——使用课程学习策略在STEM数据集上训练，使LN-Ultra在GPQA-D基准测试中准确率提升27%。该系列首创"detailed thinking on/off"推理开关功能，通过系统提示动态切换标准聊天与复杂推理模式。评估显示，LN-Ultra在GPQA-Diamond和AIME25等推理任务中超越所有开源模型，其49B版本LN-Super甚至在Arena Hard测试中以88.3分击败Claude 3.5 Sonnet等商业模型。研究团队公开的论文详细披露了训练框架设计、数据合成方法及模块替换技术，为开源社区提供了重要参考。

来源：阿尔法公社

新闻公告

英伟达发布Llama-Nemotron系列模型，LN-Ultra凭借253B参数成最强开源模型