谷歌DeepMind发布Gemini 2.5 Computer Use模型,实现AI直接操控电脑

发布时间:2025-10-21

2025 年 10 月 8 日,谷歌DeepMind团队基于多模态模型Gemini 2.5推出了Gemini 2.5 Computer Use。该模型可操控电脑,实时理解屏幕视觉信息并模拟人类操作行为,直接在浏览器中执行点击、输入、滚动等交互任务,在多项性能基准测试中达到当前SOTA水平。

该模型通过Gemini API中的computer_use工具实现闭环控制,其工作流程以用户指令、环境截图和操作历史为输入,经模型推理后输出UI动作函数调用,并在执行后更新状态进入下一轮决策。系统特别设计了多重安全机制,包括逐步安全服务评估和系统指令干预,可有效防止越权操作和高风险行为。

来源:阿尔法公社