智谱 GLM-PC 与 OpenAI Operator:AI智能体的新突破

发布时间:2025-01-24

智谱 GLM-PC :视觉驱动的电脑端全能助手

1月23日,智谱发布全球首个面向公众、回车即用的电脑智能体GLM-PC。它基于智谱多模态大模型CogAgent构建,融入“深度思考”模式,具备逻辑推理和代码生成功能,拥有类似人类对计算机的观察与操作能力,助力用户高效完成各类电脑任务。

下载&体验地址:https://cogagent.aminer.cn

GLM-PC 融合智谱自研多模态模型 CogAgent 与代码模型 CodeGeex,模拟人类左右脑分工协作。“左脑”负责逻辑推理与任务执行,能规划任务、可分解子任务;通过循环执行机制实现任务自动化闭环;拥有长思考能力,可在执行过程中实时调整、反思修正和自我纠错,像在一站式购物、信息处理场景中发挥重要作用。“右脑”负责图像与 GUI 认知,能准确理解GUI图像、认知用户行为、解析图像语义、融合多模态信息,比如处理小红书图文信息时能高效整理数据并存档。左右脑协作的模式赋予GLM-PC强大的能力,既能处理复杂逻辑任务,在开放性问题上更具适应能力、创造力和泛化能力,还能通过动态优化和情境感知,帮用户找到更优解决方案,特别是在循环任务处理、多步推理执行长链条任务管理等方面,在学习辅助、社交祝福、出行安排、文档处理等多场景应用广泛。

目前,智谱正携手联想、华硕等知名 PC 厂商,探讨AIPC的创新与发展,致力于为用户带来更高效智能的体验。

OpenAI Operator:网页端任务自动化专家

紧随其后,北京时间1月24日凌晨,OpenAI 正式发布AI智能体 Operator 。Operator 是一个研究预览版本的智能体,可访问互联网为用户自动执行各种任务。OpenAI 表示希望很快将它集成到 ChatGPT 中。目前,Operator 只供美国的Pro用户使用。

OpenAI 表示,Operator 由名为“计算机使用智能体”(CUA)的新模型提供支持。CUA将GPT-4o的视觉功能与经强化学习获得的高级推理相结合,经训练可与图形用户界面交互。Operator 能通过屏幕截图“查看”浏览器,并用鼠标和键盘与之“交互”,无需自定义 API 能在 Web 上执行任务。遇到问题时,它能自我纠正,卡顿时还会把控制权交回用户,保障协作流畅。

使用方法上,用户只需描述任务,Operator 即可自动执行,期间用户可以随时接管浏览器。用户还可以添加自定义指令、在主页上保存快速访问的提示词以完成重复任务、通过创建新对话同时运行多个任务。

安全隐私方面,采用了三层保护机制。第一层,确保用户总是具有控制权,并在关键时刻请求用户输入,具体涉及接管模式、用户确认、任务限制、监视模式;第二层,简化数据隐私管理方式,支持退出训练、可一键删除浏览数据及对话;第三层,防御恶意网站,包括谨慎导航、监控、检测管道。

未来,OpenAI计划通过API开放CUA 模型,进一步增强Operator处理更长、更复杂工作流程的能力,将其扩展到 Plus、Team 和 Enterprise 用户并集成到 ChatGPT 中。

智谱 GLM-PC 和 OpenAI Operator 的推出,必将加速人机协作从辅助到自主的进程。

参考链接:

https://mp.weixin.qq.com/s/87pYtSG9bpgYNZi5UGNnIg

https://mp.weixin.qq.com/s/hNZ0KNwuMjyCW0bM3AemXA

来源:智谱、机器之心