商汤技术博客：无需编解码器，NEO-unify如何打造原生视觉语言理解与生成

大模型之家讯今天，商汤科技发布最新技术博客—— NEO-unify: 原生架构打造端到端多模态理解与生成统一模型（NEO-unify: Building Native Multimodal Unified Models End to End）。文章深入解读NEO-unify：一项旨在从底层统一多模态理解与生成的端到端原生架构。

当前，多模态模型普遍采用“视觉编码器（VE）用于理解，变分自编码器（VAE）用于生成”的组合式设计。这套范式虽行之有效，却也内在割裂了感知与创造，常面临模块协同与效率权衡的挑战。

我们能否更进一步，让AI像人一样，直接从最原始的像素和文字中，统一地进行学习、理解与生成？这正是NEO-unify尝试回答的根本问题。它摒弃了传统的VE与VAE，首次构建了一个真正的端到端原生统一模型，在同一个架构内直接处理像素与文本，并在此基础上协同完成理解与生成任务。初步研究成果令人振奋，该设计在保持强大语义理解与细节恢复能力的同时，显著提升了训练与计算效率。

博客原文

Hugging Face地址（英文）：

https://huggingface.co/blog/sensenova/neo-unify

官方地址：

英文：https://www.sensetime.com/en/news-detail/51170542?categoryId=1072

中文：https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

NEO-unify：原生架构打造端到端多模态理解与生成统一模型

当前多模态智能架构困境

长期以来，多模态研究已形成一种默认范式：视觉编码器（Vision Encoder, VE）负责感知与理解，而变分自编码器（Variational Autoencoder, VAE）则用于内容生成。近期的一些工作尝试构建共享编码器，但这种折衷往往引入新的结构性设计权衡。

由此回到第一性原理：构建一体化模型直接处理原生输入，即像素本身与文字本身。商汤科技联合南洋理工大学，提出一种全新的架构范式：NEO-unify（preview），一个原生、统一、端到端的多模态模型架构。它不仅越过了当前视觉表征的争论，也摆脱了预训练先验和规模定律瓶颈的限制。最关键的是：不需要 VE，也不需要 VAE。

我们正扩大规模、持续迭代。更多模型与开源成果，将很快与大家见面。

NEO-unify原生一体化架构新范式

NEO-unify 第一次迈向真正的端到端统一框架，能够直接从近乎无损的信息输入中学习，并由模型自身塑造内部表征空间。首先，引入近似无损的视觉接口，用于统一图像的输入与输出表示；其次，采用原生混合Transformer（Mixture-of-Transformer，MoT）架构，使理解与生成能够在同一体系中协同进行；最终，通过统一学习框架实现跨模态训练：文本采用自回归交叉熵目标，视觉通过像素流匹配进行优化。

模型效果

1. 定量结果分析

2. 生图效果展示

技术发现

1. 无编码器设计能够同时保留抽象语义与细粒度表征

[图像重建任务]

我们先前的工作 NEO（Diao et al., ICLR 2026）表明，原生端到端模型同样能够学习到丰富的语义表征。在此基础上，我们进一步观察到一个有趣的现象：即使在冻结理解分支的情况下，独立的生成分支仍然能够从表示中抽取并恢复细粒度的视觉细节。

基于这一发现，我们训练了 NEO-unify（2B）。在初步 9 万步预训练后，模型在 MS COCO 2017 上取得 31.56 PSNR和 0.85 SSIM，而 Flux VAE 的对应指标为 32.65 和 0.91。这一结果表明，即使不依赖预训练 VE 或 VAE，近似无损的原生输入仍能够同时支持高质量的语义理解与像素级细节保真。

域外图像重建（2B NEO-unify，理解分支冻结）

[图像编辑任务]

据此，我们进一步开展探索：NEO-unify 将所有全模态条件信息统一输入到理解分支，而生成分支仅负责生成新的图像。

即使在冻结理解分支的情况下，NEO-unify（2B）仍展现出强大的图像编辑能力，同时显著减少了输入图像令牌的数量。在使用开源生成与图像编辑数据集并进行初步 6 万步混合训练后，模型在 ImgEdit 基准上取得 3.32 的成绩，且理解分支在整个训练过程中保持冻结。

小规模数据验证（2B NEO-unify，理解分支冻结）