当前位置：动态资讯

智谱发布开源视觉推理模型GLM-4.5V，刷新41项多模态推理SOTA

发布时间：2025-08-15

2025 年 8 月 11 日，智谱正式发布并开源新一代视觉推理模型 GLM-4.5V。这款总参数达 106B、激活参数 12B 的多模态模型，在 41 项公开视觉多模态榜单中斩获同级别开源模型 SOTA（ state-of-the-art）性能，成为全球 100B 级开源视觉推理领域的新标杆，同步在 GitHub、Hugging Face 及魔搭社区开放下载。

fr3.1.png

GLM-4.5V 延续GLM-4.1V-Thinking 技术路线，基于新一代文本基座模型 GLM-4.5-Air 构建，融合视觉编码器、MLP 适配器与语言解码器三大核心模块，支持 64K 多模态长上下文处理。其创新采用三维卷积提升视频处理效率，通过双三次插值机制增强高分辨率图像适配能力，并引入三维旋转位置编码（3D-RoPE）强化空间关系的感知与推理能力，在复杂场景下表现稳健。

在实际能力测试中，GLM-4.5V 展现全场景视觉推理实力：图像推理上，能通过植被特征、气候痕迹、建筑风格等细节精准定位拍摄地经纬度，在 “图寻游戏” 全球定位赛中 16小时击败 99% 的人类玩家，7天内跻身全球第 66 名；视频理解可解析长达 1 小时内容，精准提取特定时间点动作细节；前端复刻任务中，仅凭网页截图或交互视频就能生成可交互的 HTML 代码，还原布局规则与逻辑关系；复杂文档解读则实现图文同步理解，图表分析准确率领先同类模型。

fr3.2.png

技术层面，模型采用三阶段训练策略：预训练阶段强化复杂图文及视频的处理能力，监督微调阶段引入 “思维链” 样本增强推理，强化学习阶段通过多领域奖励系统实现 STEM问题、多模态定位、Agent 任务等全维度优化。这使其在 MMBench v1.1（88.2 分）、MathVista（84.6 分）等权威榜单中稳居开源榜首。

为降低开发门槛，智谱同步开源桌面助手应用，支持截屏录屏实时交互，并提供 2000 万 Tokens 免费资源包，API 调用低至输入 2 元 / M tokens。GLM-4.5V 的开源不仅填补了大参数开源多模态模型空白，更推动 AI 从 “跑分竞赛” 转向实用落地，为开发者打造多模态应用提供强大技术底座。

https://mp.weixin.qq.com/s/8cKtGwUtEvAaPriVzBI1Dg

来源：智谱

新闻公告

智谱发布开源视觉推理模型GLM-4.5V，刷新41项多模态推理SOTA