深度求索公司发布DeepSeek-V3

发布时间:2025-01-18

12月26日,北京深度求索人工智能基础技术研究有限公司上线并同步开源“DeepSeek-V3”模型。

该模型为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,并在性能上和GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。该模型在百科知识、长文本、代码、数学和中文等方面,尤其在算法代码和数学方面表现突出。

生成速度方面,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。

随着该模型性能更强、速度更快, API 服务定价调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。在45天的优惠价格体验期,每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元。

https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

来源:DeepSeek