微软开源创新框架:可将DeepSeek,变成AI Agent

发布时间:2025-02-21

AIGC开放社区 2 月 17 日消息,微软在官网发布视觉 Agent 解析框架 OmniParser 最新版 V2.0,可将 DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型转变为能在计算机上使用的 AI Agent。与 V1 版本相比,V2.0 在检测较小的可交互 UI 元素时,准确率更高且推理速度更快,延迟降低了 60%。在高分辨率 Agent 基准测试 ScreenSpot Pro 中,V2.0 搭配 GPT-4o 的准确率达到 39.6% ,远超 GPT-4o 原始的 0.8%。

除了V2,微软还开源了omnitool,这是一个基于Docker的 Windows 系统,涵盖屏幕理解、定位、动作规划和执行等功能,也是将大模型变成Agent的关键工具。

OmniParser V2.0 的核心在于将用户界面从像素空间 “标记化” 解析为结构化元素,让大模型理解和操作这些元素。其多阶段解析流程包括可交互区域检测、功能语义理解和结构化表示与动作生成。通过大量数据集训练,它能精准识别可交互元素、理解图标功能语义,进而提升模型对复杂界面的理解和操作能力。

参考链接:https://mp.weixin.qq.com/s/cNXJQ8xursHVLbUYU3ZcxQ

来源:AIGC开放社区