大模型之家讯 11月11日,百度宣布正式开源文心多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking。根据官方信息,这一模型采用约3B激活参数(activation parameters),定位为轻量级架构,但在多项能力测试中对标主流大型模型。其开源协议为Apache License 2.0,允许商业化使用。

多模态理解能力的进一步扩展
ERNIE-4.5-VL-28B-A3B-Thinking源自ERNIE-4.5-VL-28B-A3B模型体系。通过额外训练与数据优化,新版本在视觉与语言结合场景中表现提升。官方介绍称模型在文档解析、图表阅读、学科综合推理以及通用视觉理解任务上取得更优结果,并增强了跨模态推理与问题解决能力。
这一代模型强调空间定位能力与外部工具协同,包括支持“图像思考”(Image-Thinking)功能,可在用户指令下触发图像区域定位、放大及图片搜索等交互,使其具备更完整的环境感知与操作能力。
开源布局与生态支持
该模型的预训练权重、推理代码与示例项目已在Hugging Face、GitHub以及飞桨星河社区发布。百度表示,FastDeploy、vLLM、Transformers等主流部署工具链已完成适配,为开发者直接加载与使用提供便利。作为文心4.5系列的一部分,其开源动作被视为该系列模型体系进一步开放的延续。
从训练策略来看,ERNIE-4.5-VL-28B-A3B-Thinking在中期训练阶段加入更大规模的高质量视觉-语言语料,以改善特征表征及语义对齐能力。在强化学习部分则采用GSPO、IcePop等策略,目标是提升基于MoE(Mixture-of-Experts)架构的训练稳定性与效率。官方同时强调了对指令遵循性与定位能力的针对性优化,这是模型面向开发者需求的一个具体方向。
百度方面声称,该模型在业界多项评测中与旗舰级大模型的差距进一步缩小。鉴于轻量化规模与推理成本的优势,这一开源举措也被解读为多模态模型竞争格局中的另一种路线选择。性能数据的独立验证与行业采用情况仍有待后续观察。
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/13490