阿里开源HumanOmniV2多模态模型:精准捕捉视频隐藏信息,让 AI 读懂“人情世故”

发布时间:2025-07-18

7 月 8 日,阿里发布并开源能深度理解人类社交潜台词的多模态大模型 HumanOmniV2。该模型通过创新机制破解了传统 AI 对复杂社交场景的理解短板,在解读人类情感、意图及社会互动方面实现突破。

HumanOmniV2 的核心创新在于引入了强制性上下文总结机制,要求模型在输出答案前先梳理视觉、听觉、语言等多模态信息,确保不遗漏关键线索。同时,其采用 LLM 驱动的多维度奖励机制,从上下文准确性、逻辑严密性等维度优化推理能力,并基于改进的 GRPO 算法提升训练稳定性。

在全新评测基准 IntentBench 上,该模型准确率高达69.33%,远超同类开源模型;在 Daily-Omni 和 WorldSense 基准中,也以 58.47% 和 47.1% 的成绩领先。在相亲对话场景中,它能捕捉 “头巾隐含宗教偏见” 等深层逻辑,避免传统模型的片面判断。

目前该模型已开源,其技术路径为 AI 理解人类复杂社会行为提供了新范式,推动人机交互向更自然的方向发展。

https://mp.weixin.qq.com/s/x4ZBbY99TYSdyQxo8O6M_A

来源:通义大模型