阶跃星辰联合吉利开源两款多模态大模型,为开源世界贡献多模态力量

发布时间:2025-02-21

机器之心 2 月 18 日消息,阶跃星辰携手吉利汽车集团联合开源两款多模态大模型 ——Step-Video-T2V 和 Step-Audio,旨在为全球开源社区贡献一份中国力量。

Step-Video-T2V 是当前全球参数量最大、性能最优的开源视频生成模型,拥有 300 亿参数,能单次生成 204 帧、540P 分辨率的高质量视频,在复杂运动、人物美感、视觉想象力等方面具强大能力。其自研的 Video-VAE 实现了更高的压缩比,提升了训练和生成效率。经评测,该模型在指令遵循、运动平滑性、物理合理性、美感度等多方面超越此前业内的开源模型。另外,其采用最为宽松的 MIT 许可协议,支持免费商用、任意修改和衍生开发,为开源社区带来新的技术思路启发。

Step-Video-T2V 视频生成大模型及技术报告链接:

l  GitHub:https://github.com/stepfun-ai/Step-Video-T2V

l  Hugging Face:https://huggingface.co/stepfun-ai/stepvideo-t2v

l  技术报告:https://arxiv.org/abs/2502.10248

Step-Audio 则是行业首款产品级开源语音交互模型,能根据场景生成多样化表达,在五大主流公开测试集上性能排名第一,尤其在 HSK-6 评测中表现突出,堪称最懂中文的开源语音模型。它具备多模态理解生成一体化、高效合成数据链路、精细语音控制等技术优势。

上述两款大模型均已在“跃问”App 上线,视频模型还可以在桌面端使用:https://yuewen.cn/videos

这两款模型的开源,进一步彰显了其在多模态领域的技术实力,也为开源社区注入了新活力,推动国内 AI 技术迈向新高度。

参考链接:https://mp.weixin.qq.com/s/Rz4CYNi8oSp_kRqNfWtSfA

来源:机器之心