当前位置：动态资讯

智谱 GLM-PC 与 OpenAI Operator：AI智能体的新突破

发布时间：2025-01-24

智谱 GLM-PC ：视觉驱动的电脑端全能助手

1月23日，智谱发布全球首个面向公众、回车即用的电脑智能体GLM-PC。它基于智谱多模态大模型CogAgent构建，融入“深度思考”模式，具备逻辑推理和代码生成功能，拥有类似人类对计算机的观察与操作能力，助力用户高效完成各类电脑任务。

下载&体验地址：https://cogagent.aminer.cn

GLM-PC 融合智谱自研多模态模型 CogAgent 与代码模型 CodeGeex，模拟人类左右脑分工协作。“左脑”负责逻辑推理与任务执行，能规划任务、可分解子任务；通过循环执行机制实现任务自动化闭环；拥有长思考能力，可在执行过程中实时调整、反思修正和自我纠错，像在一站式购物、信息处理场景中发挥重要作用。“右脑”负责图像与 GUI 认知，能准确理解GUI图像、认知用户行为、解析图像语义、融合多模态信息，比如处理小红书图文信息时能高效整理数据并存档。左右脑协作的模式赋予GLM-PC强大的能力，既能处理复杂逻辑任务，在开放性问题上更具适应能力、创造力和泛化能力，还能通过动态优化和情境感知，帮用户找到更优解决方案，特别是在循环任务处理、多步推理执行和长链条任务管理等方面，在学习辅助、社交祝福、出行安排、文档处理等多场景应用广泛。

目前，智谱正携手联想、华硕等知名 PC 厂商，探讨AIPC的创新与发展，致力于为用户带来更高效智能的体验。

OpenAI Operator：网页端任务自动化专家

紧随其后，北京时间1月24日凌晨，OpenAI 正式发布AI智能体 Operator 。Operator 是一个研究预览版本的智能体，可访问互联网为用户自动执行各种任务。OpenAI 表示希望很快将它集成到 ChatGPT 中。目前，Operator 只供美国的Pro用户使用。

OpenAI 表示，Operator 由名为“计算机使用智能体”（CUA）的新模型提供支持。CUA将GPT-4o的视觉功能与经强化学习获得的高级推理相结合，经训练可与图形用户界面交互。Operator 能通过屏幕截图“查看”浏览器，并用鼠标和键盘与之“交互”，无需自定义 API 能在 Web 上执行任务。遇到问题时，它能自我纠正，卡顿时还会把控制权交回用户，保障协作流畅。

使用方法上，用户只需描述任务，Operator 即可自动执行，期间用户可以随时接管浏览器。用户还可以添加自定义指令、在主页上保存快速访问的提示词以完成重复任务、通过创建新对话同时运行多个任务。

安全隐私方面，采用了三层保护机制。第一层，确保用户总是具有控制权，并在关键时刻请求用户输入，具体涉及接管模式、用户确认、任务限制、监视模式；第二层，简化数据隐私管理方式，支持退出训练、可一键删除浏览数据及对话；第三层，防御恶意网站，包括谨慎导航、监控、检测管道。

未来，OpenAI计划通过API开放CUA 模型，进一步增强Operator处理更长、更复杂工作流程的能力，将其扩展到 Plus、Team 和 Enterprise 用户并集成到 ChatGPT 中。

智谱 GLM-PC 和 OpenAI Operator 的推出，必将加速人机协作从辅助到自主的进程。

参考链接：

https://mp.weixin.qq.com/s/87pYtSG9bpgYNZi5UGNnIg

https://mp.weixin.qq.com/s/hNZ0KNwuMjyCW0bM3AemXA

来源：智谱、机器之心

新闻公告

智谱 GLM-PC 与 OpenAI Operator：AI智能体的新突破