当前位置：动态资讯

英伟达开源“巨无霸”系列模型：3400亿参数、性能对标GPT-4o

发布时间：2024-06-19

当地时间6月14日，英伟达宣布开源Nemotron-4 340B（3400亿参数）系列模型——包括基础模型Base、指令模型Instruct和奖励模型Reward，并构建了一个高质量合成数据生成的完整流程。

官方介绍称，开发者可使用Nemotron-4 340B系列模型生成合成数据，用于训练大型语言模型(LLM)，以及用于医疗保健、金融、制造、零售和其他行业的商业应用。

从这方面来看，Nemotron-4 340B是一系列具有开创意义的开源模型，有可能彻底改变训练LLM的合成数据生成方式。从此，各行各业都无需依赖大量昂贵的真实世界数据集了，用合成数据就可以创建性能强大的特定领域大语言模型。

根据英伟达公布的测试结果，Nemotron-4 340B已超越Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT-4一较高下。

Nemotron-4 340B系列模型支持4K上下文窗口、50多种自然语言和40多种编程语言，训练数据截止到2023年6月。训练数据方面，英伟达采用了高达9万亿个token。其中，8万亿用于预训练，1万亿用于继续训练以提高质量。

值得一提的是，在模型对齐过程中，超过 98% 的数据都是合成的，这展示了这些模型在生成合成数据方面的有效性。

英伟达表示，这些模型在各种评估基准上的表现与开放访问模型相比具有竞争力，并且在以 FP8 精度部署时，其大小适合配备 8 个 GPU 的单个 DGX H100。

在各种研究和商业应用中，特别是在生成用于训练较小语言模型的合成数据时，社区可以从这些模型中获益。

为了进一步支持开放式研究和促进模型开发，英伟达还将开源模型配准过程中使用的合成数据生成管道。

来源：OSC开源社区

新闻公告