大模型之家讯 6月2日,阿里Qwen团队正式发布千问3.7系列最新多模态大模型Qwen3.7-Plus。该模型在Qwen3.7强大文本能力基础上全面升级视觉-语言能力,将”看、想、写、做、验”整合为统一的智能体基座,支持图像、视频、屏幕截图、网页内容及文本等多类型输入交互。即日起,Qwen3.7-Plus已上架千问云和阿里云百炼,开发者可通过API直接调用,推理后付费享限时8折优惠。
Vision Arena全球前五、中国第一
在第三方权威视觉榜单Vision Arena中,Qwen3.7-Plus助力阿里跻身全球前五、登顶中国区榜首。多模态专项测试显示,模型在BabyVision视觉问答、MathVision数学推理、ScreenSpot Pro界面分析等场景中表现显著提升,任务完成准确率较前代提高37%。纯文本能力方面,Qwen3.7-Plus在Terminal-Bench 2.0、SWE-bench和SciCode等复杂软件工程与科学编程任务上表现强劲,GPQA Diamond等高难度STEM推理基准中位列Plus级别模型前列,多项指标直逼Max级旗舰基准。
多模态能力方面,Qwen3.7-Plus具备强大的空间建模与路径搜索能力,支持将图像、视频、UI截图一键转化为可执行代码——包括SVG重现及交互式网页设计。在LingoQA等驾驶场景评测中,模型展现出对动态空间关系的精准把握,涵盖文档解析、高级OCR、长短视频事件流理解等真实世界感知任务。
11小时自主闭环开发真实APP
基于Qwen3.7-Plus构建的Hybrid-Agent系统实现了GUI与CLI无缝融合。在官方演示中,该系统持续稳定运行11小时以上,触发工具调用超1000次,自主生成超10000行代码,全程无人工干预地完成了从需求文档到测试部署的英语单词学习APP研发闭环。
另一项测试中,智能体通过自主交互macOS原生”股市”应用并理解布局,自动编写SwiftUI源码并接入实时行情API,最终10项功能验证测试全部通过,完美复现了原生的暗色主题与交互体验。此外,基于Qwen3.7-Plus开发的”Qwen for Chrome”浏览器插件,能够理解非专业用户的自然语言需求,自主进入阿里云控制台完成ECS服务器的比价、选型、配置与购买,甚至能自主处理停机扩容等复杂运维操作。
跨框架兼容与百万Token上下文
Qwen3.7-Plus支持1M Token上下文窗口(约75万英文单词),可容纳整个中型代码库或数百页文档一次性输入。模型延续了千问系列的跨框架兼容优势,可通过Claude Code、OpenClaw、Qwen Code等主流Agent框架部署,表现保持一致。
从产品演进来看,Qwen3.7-Plus代表千问系列正在从通用对话模型向智能体基础模型的关键跃迁。作为面向多模态智能体场景的新模型,其核心定位是将视觉理解与语言推理统一到同一个模型基础中,让AI不仅处理文本任务,也能理解图像、视频和界面信息并采取行动——这正是下一代具身智能与生产力工作流自动化的技术底座。
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/15853