智谱发布开源视觉推理模型GLM-4.5V,刷新41项多模态推理SOTA

发布时间:2025-08-15

2025 年 8 月 11 日,智谱正式发布并开源新一代视觉推理模型 GLM-4.5V。这款总参数达 106B、激活参数 12B 的多模态模型,在 41 项公开视觉多模态榜单中斩获同级别开源模型 SOTA( state-of-the-art)性能,成为全球 100B 级开源视觉推理领域的新标杆,同步在 GitHub、Hugging Face 及魔搭社区开放下载。

fr3.1.png

GLM-4.5V 延续GLM-4.1V-Thinking 技术路线,基于新一代文本基座模型 GLM-4.5-Air 构建,融合视觉编码器、MLP 适配器与语言解码器三大核心模块,支持 64K 多模态长上下文处理。其创新采用三维卷积提升视频处理效率,通过双三次插值机制增强高分辨率图像适配能力,并引入三维旋转位置编码(3D-RoPE)强化空间关系的感知与推理能力,在复杂场景下表现稳健。

在实际能力测试中,GLM-4.5V 展现全场景视觉推理实力:图像推理上,能通过植被特征、气候痕迹、建筑风格等细节精准定位拍摄地经纬度,在 “图寻游戏” 全球定位赛中 16小时击败 99% 的人类玩家,7天内跻身全球第 66 名;视频理解可解析长达 1 小时内容,精准提取特定时间点动作细节;前端复刻任务中,仅凭网页截图或交互视频就能生成可交互的 HTML 代码,还原布局规则与逻辑关系;复杂文档解读则实现图文同步理解,图表分析准确率领先同类模型。

fr3.2.png

技术层面,模型采用三阶段训练策略:预训练阶段强化复杂图文及视频的处理能力,监督微调阶段引入 “思维链” 样本增强推理,强化学习阶段通过多领域奖励系统实现 STEM问题、多模态定位、Agent 任务等全维度优化。这使其在 MMBench v1.1(88.2 分)、MathVista(84.6 分)等权威榜单中稳居开源榜首。

为降低开发门槛,智谱同步开源桌面助手应用,支持截屏录屏实时交互,并提供 2000 万 Tokens 免费资源包,API 调用低至输入 2 元 / M tokens。GLM-4.5V 的开源不仅填补了大参数开源多模态模型空白,更推动 AI 从 “跑分竞赛” 转向实用落地,为开发者打造多模态应用提供强大技术底座。

https://mp.weixin.qq.com/s/8cKtGwUtEvAaPriVzBI1Dg

来源:智谱