大模型之家讯 8月11日晚9点,智谱AI正式上线并开源其新一代多模态推理模型——GLM-4.5V。该模型总参数量达1060亿,其中激活参数120亿,是目前全球开源领域100B级别中性能表现最优的视觉推理模型之一。官方将其视为在通向通用人工智能(AGI)道路上的又一重要探索性成果。

从GLM-4.1V到GLM-4.5V:性能与交互方式的双重升级
智谱在今年7月底发布了GLM-4.1V,被认为是当时开源社区中性能领先的视觉-语言模型(VLM)。在随后的迭代中,团队基于GLM-4.5 Air进一步训练出规模更大、能力更强的GLM-4.5V,并在图像理解、视频理解、文档解析等多个多模态任务的开源榜单上,达到了同级别的最佳水平。

GLM-4.5V基于新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking的技术路线。在41个公开视觉多模态榜单上,GLM-4.5V综合效果达到同级别开源模型的SOTA性能,涵盖图像推理、视频理解、文档解析、GUI Agent等核心任务。

技术上,GLM-4.5V由视觉编码器、MLP适配器与语言解码器构成,支持64K多模态长上下文输入,可同时处理图像与视频数据。模型采用三维卷积提升视频处理效率,并通过双三次插值增强对高分辨率及极端宽高比图像的处理稳健性。引入的三维旋转位置编码(3D-RoPE)显著提升了三维空间关系感知与推理能力。

在训练上,模型经历了预训练、监督微调(SFT)和强化学习(RL)三阶段。在SFT阶段引入显式“思维链”格式样本,强化因果推理与多模态理解;RL阶段结合可验证奖励强化学习(RLVR)与人类反馈强化学习(RLHF),在STEM问题、多模态定位、Agent任务等方面获得全面优化。
从榜单SOTA到真实场景落地
与传统CV模型依赖图像记忆不同,GLM-4.5V更强调结合世界知识进行推理。在演示中,模型能够根据网页截图或交互视频复刻前端页面,并可通过圈选标注实现局部修改。在地理推理中,它可凭一张风景照推断出具体地理位置及经纬度,并在“图寻游戏”全球积分赛中击败99%的人类玩家。

生活化的测试也颇具趣味性——GLM-4.5V可以先学习区分肯德基与麦当劳鸡翅的教程图片,再准确判断新上传的炸鸡图片来源。这种细节辨别能力,展示了模型在视觉特征提取与语义对齐方面的高精度。
此外,GLM-4.5V还能在电商页面中自动识别折扣信息并计算最大优惠;在复杂文档解析中,以视觉方式读取并理解几十页含图表的PPT,准确提取和总结关键信息;在GUI Agent任务中,识别屏幕元素并配合Agent系统完成操作指令,为桌面自动化提供底层推理支持。
开源与生态
智谱表示,GLM-4.5V已与新版AutoGLM等工具集成,并将在开放平台与大模型接口中向开发者与企业用户提供支持。
目前GLM-4.5V已在Hugging Face与ModelScope(魔搭社区)同步开源,配套的屏幕助手Demo也同时上线。普通用户可通过Z.AI和智谱清言App直接体验模型的多模态问答能力。
智谱强调,多模态感知与推理能力是AGI的重要基础,公司将持续推进GLM系列模型的迭代,探索更强的跨模态推理与交互能力。
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/12204