通义千问开源首个图像生成基础模型 Qwen-Image

大模型之家讯 8月5日,阿里云通义团队再度推进开源节奏,正式推出其首个图像生成基础模型 Qwen-Image。该模型为通义千问(Qwen)体系下的图像生成成员,拥有200亿参数,并采用了多模态架构 MMDiT。模型与技术报告同步开放,代码与权重现已上线 ModelScope、Hugging Face 及 GitHub 平台,用户可通过 QwenChat 实时体验。

通义千问开源首个图像生成基础模型 Qwen-Image

这一发布标志着通义在多模态生成领域的重要延伸,也意味着其AI能力从文本理解、语言生成,进一步扩展至高复杂度图文融合与图像编辑任务。

复杂文本渲染能力:让AI“看懂”字

Qwen-Image 的最大亮点之一,在于对“复杂文本渲染”的支持。从官方展示和实测情况来看,模型在中英文文字的理解与画面融合方面,表现出较高的保真度和一致性。

例如,在“李白站在窗前写‘床前明月光’”的古风场景提示下,模型生成的画面不仅保留了古典氛围,文字也与场景融合自然,非贴图式的“摆拍”,体现出一定的语境理解与空间适配能力。而在PPT与海报生成任务中,模型在图文排版、字体风格、颜色控制、构图精度等方面,也展现出较高的一致性与准确性。

尤其在文字细节生成上,相较目前主流图像生成模型对中英文字符的不稳定表现,Qwen-Image在中文渲染任务中表现出明显领先。

图像编辑能力与性能表现:从“会画”到“会改”

通义千问团队为Qwen-Image设计了较为完备的图像编辑能力体系。模型支持风格迁移、局部增改、细节增强、文字替换、人物姿态调整等典型编辑任务,在多任务学习范式下保持编辑前后一致性。

通义千问开源首个图像生成基础模型 Qwen-Image

在多个权威基准数据集上,包括GenEval、DPG、OneIG-Bench(图像生成),以及GEdit、ImgEdit、GSO(图像编辑)中,Qwen-Image均取得当前最优表现(SOTA)。而在专注文本渲染评估的LongText-Bench、ChineseWord和TextCraft上,其表现同样领先。

官方报告披露,为实现复杂文本渲染能力,Qwen-Image采用了渐进式课程学习策略:从无文字到有文字,从单字到整段语义结构,逐步强化模型对文本的理解与生成能力。这一训练路径有效提升了其原生处理文字的能力,尤其适用于图文海报、商业宣传图、视觉化叙事等高文字占比场景。

从通义模型家族到多模态生态

Qwen-Image 的发布,使通义千问家族的多模态布局进一步完善,继文本、代码、语音之后,图像生成成为其又一基础支柱。该模型的开源也延续了通义团队一贯的开放策略,源代码、模型权重、技术细节同步释出,意图明显:以开放生态拉动多模态应用的标准化与落地进程。

发布同期,通义官方也通过Demo方式“剧透”了一张以“通义千问视觉基础模型”为主题的PPT封面,或许预示着更多视觉模型的到来。正值AI基础模型格局剧烈变动的8月,Qwen-Image无疑为国内AI模型生态注入了一枚新的变量。

原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/11983

(0)
上一篇 1天前
下一篇 1天前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注