阿里发布Qwen3.7-Plus多模态大模型：Vision Arena全球前五、中国第一

志斌 • 2026年6月2日下午2:06 • 人工智能

大模型之家讯 6月2日，阿里Qwen团队正式发布千问3.7系列最新多模态大模型Qwen3.7-Plus。该模型在Qwen3.7强大文本能力基础上全面升级视觉-语言能力，将”看、想、写、做、验”整合为统一的智能体基座，支持图像、视频、屏幕截图、网页内容及文本等多类型输入交互。即日起，Qwen3.7-Plus已上架千问云和阿里云百炼，开发者可通过API直接调用，推理后付费享限时8折优惠。

Vision Arena全球前五、中国第一

在第三方权威视觉榜单Vision Arena中，Qwen3.7-Plus助力阿里跻身全球前五、登顶中国区榜首。多模态专项测试显示，模型在BabyVision视觉问答、MathVision数学推理、ScreenSpot Pro界面分析等场景中表现显著提升，任务完成准确率较前代提高37%。纯文本能力方面，Qwen3.7-Plus在Terminal-Bench 2.0、SWE-bench和SciCode等复杂软件工程与科学编程任务上表现强劲，GPQA Diamond等高难度STEM推理基准中位列Plus级别模型前列，多项指标直逼Max级旗舰基准。

多模态能力方面，Qwen3.7-Plus具备强大的空间建模与路径搜索能力，支持将图像、视频、UI截图一键转化为可执行代码——包括SVG重现及交互式网页设计。在LingoQA等驾驶场景评测中，模型展现出对动态空间关系的精准把握，涵盖文档解析、高级OCR、长短视频事件流理解等真实世界感知任务。

11小时自主闭环开发真实APP

基于Qwen3.7-Plus构建的Hybrid-Agent系统实现了GUI与CLI无缝融合。在官方演示中，该系统持续稳定运行11小时以上，触发工具调用超1000次，自主生成超10000行代码，全程无人工干预地完成了从需求文档到测试部署的英语单词学习APP研发闭环。

另一项测试中，智能体通过自主交互macOS原生”股市”应用并理解布局，自动编写SwiftUI源码并接入实时行情API，最终10项功能验证测试全部通过，完美复现了原生的暗色主题与交互体验。此外，基于Qwen3.7-Plus开发的”Qwen for Chrome”浏览器插件，能够理解非专业用户的自然语言需求，自主进入阿里云控制台完成ECS服务器的比价、选型、配置与购买，甚至能自主处理停机扩容等复杂运维操作。

跨框架兼容与百万Token上下文

Qwen3.7-Plus支持1M Token上下文窗口（约75万英文单词），可容纳整个中型代码库或数百页文档一次性输入。模型延续了千问系列的跨框架兼容优势，可通过Claude Code、OpenClaw、Qwen Code等主流Agent框架部署，表现保持一致。

从产品演进来看，Qwen3.7-Plus代表千问系列正在从通用对话模型向智能体基础模型的关键跃迁。作为面向多模态智能体场景的新模型，其核心定位是将视觉理解与语言推理统一到同一个模型基础中，让AI不仅处理文本任务，也能理解图像、视频和界面信息并采取行动——这正是下一代具身智能与生产力工作流自动化的技术底座。

原创文章，作者：志斌，如若转载，请注明出处：http://www.damoai.com.cn/archives/15853