当前位置：动态资讯

英伟达发布 2530 亿参数大模型，推理效率直逼 DeepSeek-R1

发布时间：2025-04-23

4 月 8 日，英伟达正式开源了其 Llama Nemotron 系列中规模最大的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1（简称 Ultra），该模型拥有 2530 亿参数，基于 Meta 的 Llama-3.1-405B-Instruct 蒸馏而来，专为推理、对话、RAG（检索增强生成）和工具调用等任务设计。得益于神经架构搜索（NAS）优化，Ultra 模型引入了跳跃注意力机制、前馈网络融合（FFN Fusion）等创新结构，在保持高性能的同时显著降低了内存占用和计算需求。该模型支持最长 128K 的上下文窗口，可在单个 8x H100 节点上高效部署，适配 Hopper 和 B100 架构，支持 BF16 和 FP8 精度。

fr5.1.jpg

在多项基准测试中，Ultra 模型表现出色：在 GPQA、IFEval 指令遵循和 LiveCodeBench 编码任务中超越了参数量高达 6710 亿的 DeepSeek-R1，推理吞吐量更是后者的四倍。值得注意的是，Ultra 模型支持通过系统提示词控制推理模式的开启与否，提升了模型的灵活性。目前，该模型已在 Hugging Face 平台开源，采用英伟达开放模型许可证，允许商业用途，适用于 AI Agent 系统、聊天机器人、RAG 系统等多种场景。

来源：AI信息Gap

新闻公告

英伟达发布 2530 亿参数大模型，推理效率直逼 DeepSeek-R1