商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

大模型之家讯 今天,商汤科技发布最新技术博客—— NEO-unify: 原生架构打造端到端多模态理解与生成统一模型(NEO-unify: Building Native Multimodal Unified Models End to End)。文章深入解读NEO-unify:一项旨在从底层统一多模态理解与生成的端到端原生架构。

当前,多模态模型普遍采用“视觉编码器(VE)用于理解,变分自编码器(VAE)用于生成”的组合式设计。这套范式虽行之有效,却也内在割裂了感知与创造,常面临模块协同与效率权衡的挑战。

我们能否更进一步,让AI像人一样,直接从最原始的像素和文字中,统一地进行学习、理解与生成?这正是NEO-unify尝试回答的根本问题。它摒弃了传统的VE与VAE,首次构建了一个真正的端到端原生统一模型,在同一个架构内直接处理像素与文本,并在此基础上协同完成理解与生成任务。初步研究成果令人振奋,该设计在保持强大语义理解与细节恢复能力的同时,显著提升了训练与计算效率。

博客原文

Hugging Face地址(英文):

https://huggingface.co/blog/sensenova/neo-unify

官方地址:

英文:https://www.sensetime.com/en/news-detail/51170542?categoryId=1072

中文:https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

NEO-unify:原生架构打造端到端多模态理解与生成统一模型

当前多模态智能架构困境

长期以来,多模态研究已形成一种默认范式:视觉编码器(Vision Encoder, VE) 负责感知与理解,而变分自编码器(Variational Autoencoder, VAE) 则用于内容生成。近期的一些工作尝试构建共享编码器,但这种折衷往往引入新的结构性设计权衡。

由此回到第一性原理:构建一体化模型直接处理原生输入,即像素本身与文字本身。商汤科技联合南洋理工大学,提出一种全新的架构范式:NEO-unifypreview,一个原生、统一、端到端的多模态模型架构。它不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。最关键的是:不需要 VE,也不需要 VAE

我们正扩大规模、持续迭代。更多模型与开源成果,将很快与大家见面。

NEO-unify原生一体化架构新范式

商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

NEO-unify 第一次迈向真正的端到端统一框架,能够直接从近乎无损的信息输入中学习,并由模型自身塑造内部表征空间。首先,引入近似无损的视觉接口,用于统一图像的输入与输出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架构,使理解与生成能够在同一体系中协同进行;最终,通过统一学习框架实现跨模态训练:文本采用自回归交叉熵目标,视觉通过像素流匹配进行优化。

模型效果

1. 定量结果分析

商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成
商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

2. 生图效果展示

商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成
商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

技术发现

1. 无编码器设计能够同时保留抽象语义与细粒度表征

[图像重建任务]

我们先前的工作 NEO(Diao et al., ICLR 2026)表明,原生端到端模型同样能够学习到丰富的语义表征。在此基础上,我们进一步观察到一个有趣的现象:即使在冻结理解分支的情况下,独立的生成分支仍然能够从表示中抽取并恢复细粒度的视觉细节

基于这一发现,我们训练了 NEO-unify2B。在初步 9 万步预训练后,模型在 MS COCO 2017 上取得 31.56 PSNR和 0.85 SSIM,而 Flux VAE 的对应指标为 32.65 和 0.91。这一结果表明,即使不依赖预训练 VE 或 VAE近似无损的原生输入仍能够同时支持高质量的语义理解与像素级细节保真。

域外图像重建(2B NEO-unify,理解分支冻结)

商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

[图像编辑任务]

据此,我们进一步开展探索:NEO-unify 将所有全模态条件信息统一输入到理解分支,而生成分支仅负责生成新的图像。

即使在冻结理解分支的情况下,NEO-unify2B 仍展现出强大的图像编辑能力,同时显著减少了输入图像令牌的数量。在使用开源生成与图像编辑数据集并进行初步 6 万步混合训练后,模型在 ImgEdit 基准上取得 3.32 的成绩,且理解分支在整个训练过程中保持冻结

小规模数据验证(2B NEO-unify,理解分支冻结)

商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

ImgEdit提示词编辑(2B NEO-unify,理解分支冻结)

商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

2. 无编码器架构与 MoT 主干高度协同大幅降低内在冲突

借助预训练的理解分支与生成分支,NEO-unify 使用相同的中期训练(MT)与 监督微调(SFT) 数据进行联合训练。即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在 MoT 主干中协同提升,整体冲突极小。

商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

3. 无编码器架构,展现更高数据训练效率

此外,我们首先进行 web-scale 预训练,随后在多样且高质量的数据语料上依次进行中期训练(MT) 和 监督微调(SFT)。 Bagel 模型相比,NEO-unify 展现出更高的数据训练效率,在使用更少训练 token 的情况下取得了更优的性能。

商汤技术博客:无需编解码器,NEO-unify如何打造原生视觉语言理解与生成

未来展望

这不仅仅是一种模型架构探索,更是迈向下一代智能形态的一步:

 • 感知与生成交织的闭环

 • 全模态推理

 • 视觉推理

 • 空间智能

 • 世界模型

 • …

一条新的路线图正在展开:模型不再在模态之间进行转换,而是能够原生地跨模态思考。多模态 AI 不再只是连接不同系统,而是构建一个从未割裂的统一智能体,并让所需能力从其内部自然涌现。

原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/14789

(0)
上一篇 6小时前
下一篇 19分钟前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注