当前位置：动态资讯

VLA进化到ViLLA，智元发布首个通用具身基座大模型GO-1

发布时间：2025-03-21

智元机器人3月10消息，智元发布首个通用具身基座模型——智元启元大模型Genie Operator-1（GO-1）。

GO-1开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构，该架构由VLM(多模态大模型) + MoE(混合专家)组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力，MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力，三者环环相扣，实现了可以利用人类视频学习，完成小样本快速泛化，降低了具身智能门槛，并成功部署到智元多款机器人本体，持续进化，将具身智能推上了一个新台阶。

相比传统 VLA 架构，ViLLA 通过预测隐式动作标记，在真实世界操作任务上表现卓越。实验显示，在五种不同复杂度任务测试中，GO-1 平均成功率比已有最优模型提高 32%，在“倒水”、“清理桌面”、“补充饮料”任务中表现尤为突出。

GO-1大模型将加速具身智能的普及，机器人将从依赖特定任务的工具，向着具备通用智能的自主体发展，在商业、工业、家庭等多领域发挥更大的作用，通向更加通用全能的智能未来。

研究论文：https://agibot-world.com/blog/agibot_go1.pdf

参考链接：https://mp.weixin.qq.com/s/vG_VQcDYPojg-1DZ9DXoGQ

来源：智元机器人

新闻公告

VLA进化到ViLLA，智元发布首个通用具身基座大模型GO-1