当前位置：动态资讯

阶跃星辰联合吉利开源两款多模态大模型，为开源世界贡献多模态力量

发布时间：2025-02-21

机器之心 2 月 18 日消息，阶跃星辰携手吉利汽车集团联合开源两款多模态大模型 ——Step-Video-T2V 和 Step-Audio，旨在为全球开源社区贡献一份中国力量。

Step-Video-T2V 是当前全球参数量最大、性能最优的开源视频生成模型，拥有 300 亿参数，能单次生成 204 帧、540P 分辨率的高质量视频，在复杂运动、人物美感、视觉想象力等方面具强大能力。其自研的 Video-VAE 实现了更高的压缩比，提升了训练和生成效率。经评测，该模型在指令遵循、运动平滑性、物理合理性、美感度等多方面超越此前业内的开源模型。另外，其采用最为宽松的 MIT 许可协议，支持免费商用、任意修改和衍生开发，为开源社区带来新的技术思路启发。

Step-Video-T2V 视频生成大模型及技术报告链接：

l GitHub：https://github.com/stepfun-ai/Step-Video-T2V

l Hugging Face：https://huggingface.co/stepfun-ai/stepvideo-t2v

l 技术报告：https://arxiv.org/abs/2502.10248

Step-Audio 则是行业首款产品级开源语音交互模型，能根据场景生成多样化表达，在五大主流公开测试集上性能排名第一，尤其在 HSK-6 评测中表现突出，堪称最懂中文的开源语音模型。它具备多模态理解生成一体化、高效合成数据链路、精细语音控制等技术优势。

上述两款大模型均已在“跃问”App 上线，视频模型还可以在桌面端使用：https://yuewen.cn/videos

这两款模型的开源，进一步彰显了其在多模态领域的技术实力，也为开源社区注入了新活力，推动国内 AI 技术迈向新高度。

参考链接：https://mp.weixin.qq.com/s/Rz4CYNi8oSp_kRqNfWtSfA

来源：机器之心

新闻公告

阶跃星辰联合吉利开源两款多模态大模型，为开源世界贡献多模态力量