腾讯混元世界模型 1.1 开源:支持多视图及视频输入,单卡部署,秒级生成

发布时间:2025-10-23

2025 年 10 月 22 日,腾讯发布并开源混元世界模型 1.1(WorldMirror),相较 7 月推出的 1.0 版本,新增多视图及视频输入支持,实现单卡部署与秒级 3D 场景生成,让专业 3D 重建技术走向大众。

该模型首次实现多模态先验注入和多任务统一输出的端到端3D重建,可灵活接入相机位姿、内参、深度图等信息,同时输出点云、深度图、相机参数等多类 3D 几何结果,且各项性能均达 SOTA 水平。依托纯前馈架构,在单次正向传播中直接输出所有3D属性。处理典型的8-32视图输入,本地耗时仅1秒,较传统迭代方法效率大幅提升。此外,通过多模态先验提示、通用几何预测架构及课程学习策略,保障了重建精度与泛化能力。

目前,开发者可通过 GitHub 或 Hugging Face 获取模型,普通用户也能在 Hugging Face Space 在线体验,上传图像或视频即可实时预览 3DGS 渲染效果。

体验地址:https://huggingface.co/spaces/tencent/HunyuanWorld-Mirror

参考链接:https://mp.weixin.qq.com/s/V1TToEEltM1tisp_P4b2eg

来源:腾讯混元