英伟达发布 2530 亿参数大模型,推理效率直逼 DeepSeek-R1

发布时间:2025-04-23

4 月 8 日,英伟达正式开源了其 Llama Nemotron 系列中规模最大的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1(简称 Ultra),该模型拥有 2530 亿参数,基于 Meta 的 Llama-3.1-405B-Instruct 蒸馏而来,专为推理、对话、RAG(检索增强生成)和工具调用等任务设计。得益于神经架构搜索(NAS)优化,Ultra 模型引入了跳跃注意力机制、前馈网络融合(FFN Fusion)等创新结构,在保持高性能的同时显著降低了内存占用和计算需求。该模型支持最长 128K 的上下文窗口,可在单个 8x H100 节点上高效部署,适配 Hopper 和 B100 架构,支持 BF16 和 FP8 精度。

fr5.1.jpg

在多项基准测试中,Ultra 模型表现出色:在 GPQA、IFEval 指令遵循和 LiveCodeBench 编码任务中超越了参数量高达 6710 亿的 DeepSeek-R1,推理吞吐量更是后者的四倍。值得注意的是,Ultra 模型支持通过系统提示词控制推理模式的开启与否,提升了模型的灵活性。目前,该模型已在 Hugging Face 平台开源,采用英伟达开放模型许可证,允许商业用途,适用于 AI Agent 系统、聊天机器人、RAG 系统等多种场景。

来源:AI信息Gap