大模型之家讯 近日,由清华大学 KEG 实验室与智谱 AI 联合研发的多模态大模型 GLM-4.1V-Thinking 成功登顶 HuggingFace Trending 榜单全球第一,引发行业关注。尤为引人注目的是,其轻量级版本 GLM-4.1V-9B-Thinking 凭借不到 10B 的参数量实现“以小博大”,在性能与部署效率之间取得罕见的平衡。

这款模型基于 GLM-4V 架构打造,聚焦通用推理能力,支持图像、视频、文档等多模态输入,并引入“思维链推理机制(Chain-of-Thought Reasoning)”与“课程采样强化学习策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,从底层架构到训练方法,系统性强化跨模态因果推理能力及其稳定性。
尽管参数规模控制在 9B 量级,GLM-4.1V-9B-Thinking 在 28 项多模态权威评测中表现亮眼:其中 23 项任务中取得同级别(10B)模型最佳成绩,18 项甚至持平或超越了 Qwen-2.5-VL(72B)的表现,覆盖 MMStar、MMMU-Pro、ChartQAPro、OSWorld 等主流基准测试,凸显其在小体积模型中难得一见的推理与理解能力。
GLM-4.1V-Thinking 的推出被视为 GLM 系列视觉模型从感知层面迈向认知智能的关键跃迁。这一成果不仅反映了模型在算法、训练范式上的前沿探索,也为“轻量级通用大模型”的未来方向提供了新的技术路径。
模型开源链接
GitHub:https://github.com/THUDM/GLM-4.1V-Thinking
HuggingFace:https://huggingface.co/THUDM/GLM-4.1V-9B-Thinking
技术分享视频
Bilibili:https://www.bilibili.com/video/BV1xzGczfEYU/?spm_id_from=333.1387.homepage.video_card.click
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/11222