当前位置：动态资讯

阿里开源HumanOmniV2多模态模型：精准捕捉视频隐藏信息，让 AI 读懂“人情世故”

发布时间：2025-07-18

7 月 8 日，阿里发布并开源能深度理解人类社交潜台词的多模态大模型 HumanOmniV2。该模型通过创新机制破解了传统 AI 对复杂社交场景的理解短板，在解读人类情感、意图及社会互动方面实现突破。

HumanOmniV2 的核心创新在于引入了强制性上下文总结机制，要求模型在输出答案前先梳理视觉、听觉、语言等多模态信息，确保不遗漏关键线索。同时，其采用 LLM 驱动的多维度奖励机制，从上下文准确性、逻辑严密性等维度优化推理能力，并基于改进的 GRPO 算法提升训练稳定性。

在全新评测基准 IntentBench 上，该模型准确率高达69.33%，远超同类开源模型；在 Daily-Omni 和 WorldSense 基准中，也以 58.47% 和 47.1% 的成绩领先。在相亲对话场景中，它能捕捉 “头巾隐含宗教偏见” 等深层逻辑，避免传统模型的片面判断。

目前该模型已开源，其技术路径为 AI 理解人类复杂社会行为提供了新范式，推动人机交互向更自然的方向发展。

来源：通义大模型

新闻公告