智谱开源GLM-4.5V：多模态推理能力再夺开源SOTA

志斌 • 2025年8月11日下午9:24 • 人工智能

大模型之家讯 8月11日晚9点，智谱AI正式上线并开源其新一代多模态推理模型——GLM-4.5V。该模型总参数量达1060亿，其中激活参数120亿，是目前全球开源领域100B级别中性能表现最优的视觉推理模型之一。官方将其视为在通向通用人工智能（AGI）道路上的又一重要探索性成果。

智谱在今年7月底发布了GLM-4.1V，被认为是当时开源社区中性能领先的视觉-语言模型（VLM）。在随后的迭代中，团队基于GLM-4.5 Air进一步训练出规模更大、能力更强的GLM-4.5V，并在图像理解、视频理解、文档解析等多个多模态任务的开源榜单上，达到了同级别的最佳水平。

GLM-4.5V基于新一代旗舰文本基座模型GLM-4.5-Air，延续GLM-4.1V-Thinking的技术路线。在41个公开视觉多模态榜单上，GLM-4.5V综合效果达到同级别开源模型的SOTA性能，涵盖图像推理、视频理解、文档解析、GUI Agent等核心任务。

技术上，GLM-4.5V由视觉编码器、MLP适配器与语言解码器构成，支持64K多模态长上下文输入，可同时处理图像与视频数据。模型采用三维卷积提升视频处理效率，并通过双三次插值增强对高分辨率及极端宽高比图像的处理稳健性。引入的三维旋转位置编码（3D-RoPE）显著提升了三维空间关系感知与推理能力。

在训练上，模型经历了预训练、监督微调（SFT）和强化学习（RL）三阶段。在SFT阶段引入显式“思维链”格式样本，强化因果推理与多模态理解；RL阶段结合可验证奖励强化学习（RLVR）与人类反馈强化学习（RLHF），在STEM问题、多模态定位、Agent任务等方面获得全面优化。

与传统CV模型依赖图像记忆不同，GLM-4.5V更强调结合世界知识进行推理。在演示中，模型能够根据网页截图或交互视频复刻前端页面，并可通过圈选标注实现局部修改。在地理推理中，它可凭一张风景照推断出具体地理位置及经纬度，并在“图寻游戏”全球积分赛中击败99%的人类玩家。

生活化的测试也颇具趣味性——GLM-4.5V可以先学习区分肯德基与麦当劳鸡翅的教程图片，再准确判断新上传的炸鸡图片来源。这种细节辨别能力，展示了模型在视觉特征提取与语义对齐方面的高精度。

此外，GLM-4.5V还能在电商页面中自动识别折扣信息并计算最大优惠；在复杂文档解析中，以视觉方式读取并理解几十页含图表的PPT，准确提取和总结关键信息；在GUI Agent任务中，识别屏幕元素并配合Agent系统完成操作指令，为桌面自动化提供底层推理支持。

智谱表示，GLM-4.5V已与新版AutoGLM等工具集成，并将在开放平台与大模型接口中向开发者与企业用户提供支持。

目前GLM-4.5V已在Hugging Face与ModelScope（魔搭社区）同步开源，配套的屏幕助手Demo也同时上线。普通用户可通过Z.AI和智谱清言App直接体验模型的多模态问答能力。

智谱强调，多模态感知与推理能力是AGI的重要基础，公司将持续推进GLM系列模型的迭代，探索更强的跨模态推理与交互能力。

原创文章，作者：志斌，如若转载，请注明出处：http://www.damoai.com.cn/archives/12204