news 2026/6/13 16:51:03

扩散模型与自回归模型的融合生成范式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
扩散模型与自回归模型的融合生成范式

从离散到连续:扩散模型与自回归模型的融合生成范式深度解析

一、背景介绍

在生成式AI的演进历程中,两类主流范式长期占据着主导地位:自回归模型与扩散模型。前者以GPT、DALL-E为代表,通过逐步预测离散token实现生成;后者则以Stable Diffusion、Imagen为代表,通过连续空间中的逐步去噪获得高质量图像。长期以来,这两条技术路线各自发展,鲜有交集。

然而,随着2023年DiT(Diffusion Transformer)和2024年MAR(Masked Autoregressive)系列工作的出现,一个令人振奋的趋势逐渐清晰:将扩散过程的连续去噪与自回归的离散预测相结合,正在成为文生图领域的新主流方向。这种融合并非简单的技术堆叠,而是在概率建模层面实现了深刻的统一。

传统自回归模型面临的核心挑战在于:离散token的预测天然缺乏对全局一致性的建模能力,导致长距离依赖难以捕捉。而扩散模型虽然在图像质量上表现出色,但其连续去噪过程缺乏显式的结构约束,难以实现灵活的局部控制。融合范式正是为了取长补短——用自回归的因果结构提供生成框架,用扩散的连续去噪保证视觉质量。

从应用角度看,这种融合范式在多个维度展现出显著优势:生成质量达到甚至超越纯扩散模型,推理速度较纯自回归模型提升数倍,同时支持条件控制、局部编辑等高级功能。在视频生成领域,这种范式更是展现出独特价值——利用自回归的时间结构结合扩散的空间建模,能够生成既连贯又高质的视频内容。

二、技术原理

2.1 核心思想:离散骨架与连续纹理

融合范式的核心洞察在于:视觉生成可以分解为两个阶段——离散的“骨架”预测和连续的“纹理”填充。自回归模型擅长捕捉离散token之间的内在结构关系,这恰好对应于图像的语义骨架;扩散模型擅长从噪声中恢复连续细节,这对应于图像的纹理质感。

具体而言,融合模型通常采用两阶段架构:

  1. 离散编码阶段:使用VQ-VAE或类似方法将图像编码为离散token序列
  2. 混合生成阶段:自回归模型预测token序列,扩散模型在token对应的连续空间中进行去噪

这种设计巧妙地将两种范式的优势结合:自回归部分提供因果约束和灵活的条件控制,扩散部分确保每个token对应的视觉区域具有高质量的局部细节。

2.2 数学基础:从交叉熵到扩散损失

理解融合范式的关键在于统一两种损失函数。自回归模型使用交叉熵损失:

L_ar = -Σ log p(x_i | x_{<i})

扩散模型使用噪声预测损失:

L_diff = E[||ε - ε_θ(x_t, t)||²]

在融合范式中,这两种损失被巧妙地结合。以MAR(Masked Autoregressive)为例,其核心创新在于引入“掩码自回归”机制:

  1. 随机掩码部分token
  2. 使用自回归方式预测掩码token
  3. 对预测结果应用扩散损失进行细化

数学上,这等价于构建一个混合概率模型:

p(x) = Σ_m p(m) · p_ar(x_m | x_{¬m}) · p_diff(x_{¬m} | x_m)

其中m为掩码模式,p_ar为自回归预测分布,p_diff为条件扩散分布。

2.3 关键创新:连续token表示

传统自回归模型将每个token映射为离散类别,而融合范式引入连续token表示。每个token对应一个连续向量,扩散过程在这个连续空间中执行去噪。这种设计带来了几个关键优势:

  • 信息密度提升:连续表示可以编码更丰富的视觉信息
  • 梯度传播友好:避免离散化导致的梯度截断
  • 自然支持插值:连续空间中的线性插值对应视觉上的平滑过渡

具体实现上,通常采用“量化-反量化”策略:编码器将图像映射为连续向量,经过向量量化得到离散索引,解码器将离散索引映射回连续空间。扩散模型作用于解码器输出的连续表示上。

三、系统架构设计

3.1 整体架构

[

系统采用分层架构设计,从上到下依次为:

  1. 控制层:接收文本提示、图像条件等输入
  2. 生成层:包含自回归模块和扩散模块
  3. 表示层:负责图像与token之间的转换
  4. 优化层:提供推理加速和内存管理

3.2 模块详细设计

VQ-VAE编码器

  • 输入:RGB图像 (H x W x 3)
  • 输出:离散token序列 (h x w)
  • 压缩比:通常为16x或8x

自回归Transformer

  • 架构:Causal Transformer Decoder
  • 输入:部分可见的token序列
  • 输出:预测的下一个token分布

扩散去噪器

  • 架构:U-Net或DiT
  • 输入:噪声化连续表示 + 时间步
  • 输出:预测噪声

条件融合模块

  • 将文本嵌入与视觉特征交叉注意力
  • 支持多种条件形式(文本、图像、掩码)

3.3 数据流设计

生成过程的数据流分为三个阶段:

阶段一:骨架生成

文本 → 文本编码器 → 自回归Transformer → 离散token序列

阶段二:连续映射

离散token → 嵌入表 → 连续向量序列

阶段三:细节细化

连续向量 + 噪声 → 扩散去噪器 → 精细连续表示 → VQ-VAE解码器 → 图像

四、核心实现(Golang代码)

4.1 基础数据结构

// token表示图像中的离散标记typeTokenstruct{Indexint// 离散索引Embed[]float32// 对应的连续嵌入向量Maskedbool// 是否为掩码状态}// 图像表示,包含离散和连续两种形式typeImageRepresentationstruct{DiscreteTokens[]Token// 离散token序列ContinuousLatent[]float32// 连续潜在表示Height,Widthint// 空间维度}// 扩散配置参数typeDiffusionConfigstruct{Timestepsint// 总去噪步数BetaStartfloat32// 噪声调度起始BetaEndfloat32// 噪声调度结束ScheduleTypestring// 调度类型:linear/cosine}// 自回归配置参数typeARConfigstruct{MaxSeqLenint// 最大序列长度NumLayersint// Transformer层数NumHeadsint// 注意力头数EmbedDimint// 嵌入维度VocabSizeint// 词汇表大小}

4.2 VQ-VAE编码器实现

// VQVAEEncoder 将图像编码为离散tokentypeVQVAEEncoderstruct{ConvLayers[]ConvLayer Codebook[]float32// 码本向量EmbedDimint}func(e*VQVAEEncoder)Encode(image[]float32)(*ImageRepresentation,error){// 1. 卷积下采样latent:=imagefor_,layer:=rangee.ConvLayers{latent=layer.Forward(latent)}// 2. 向量量化:找到最近的码本向量h,w:=len(latent)/e.EmbedDim,e.EmbedDim tokens:=make([]Token,h*w)fori:=0;i<h*w;i++{// 计算当前向量与所有码本的距离minDist:=float32(math.MaxFloat32)bestIdx:=0forj,code:=rangee.Codebook{dist:=euclideanDistance(latent[i*e.EmbedDim:(i+1)*e.EmbedDim],code)ifdist<minDist{minDist=dist bestIdx=j}}// 记录离散索引和连续嵌入tokens[i]=Token{Index:bestIdx,Embed:e.Codebook[bestIdx*e.EmbedDim:(bestIdx+1)*e.EmbedDim],Masked:false,}}return&ImageRepresentation{DiscreteTokens:tokens,ContinuousLatent:latent,Height:h,Width:w,},nil}

4.3 自回归生成器

// ARGenerator 自回归token预测器typeARGeneratorstruct{Transformer*CausalTransformer Config*ARConfig}// Generate 自回归生成token序列
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 16:48:54

Cursor Free VIP:AI编程助手免费升级的智能解决方案

Cursor Free VIP&#xff1a;AI编程助手免费升级的智能解决方案 【免费下载链接】cursor-free-vip [Support 0.45]&#xff08;Multi Language 多语言&#xff09;自动注册 Cursor Ai &#xff0c;自动重置机器ID &#xff0c; 免费升级使用Pro 功能: Youve reached your trial…

作者头像 李华
网站建设 2026/6/13 16:45:54

企业级AI编排:MuleSoft与LLM协同落地实战

1. 项目概述&#xff1a;当企业级集成平台遇上大语言模型 “AI Orchestration in Action: How MuleSoft and LLMs Fuel the Future of Enterprise AI”——这个标题不是一句空泛的营销口号&#xff0c;而是我在过去18个月里亲手搭建、上线并持续迭代的三个核心生产系统的真实写…

作者头像 李华
网站建设 2026/6/13 16:42:50

VLC for Android:解锁跨设备无线投屏的终极媒体播放体验

VLC for Android&#xff1a;解锁跨设备无线投屏的终极媒体播放体验 【免费下载链接】vlc-android VLC for Android, Android TV and ChromeOS 项目地址: https://gitcode.com/gh_mirrors/vl/vlc-android VLC for Android作为一款功能强大的开源媒体播放器&#xff0c;…

作者头像 李华
网站建设 2026/6/13 16:39:59

AI时代大讨论:人类如何与算法共存,真相、就业、伦理困境何解?

AI引发的“认知投降”之问当AI不再只是提高效率的工具&#xff0c;逐渐渗透进研究方法、决策流程甚至情感依赖中&#xff0c;我们是否正经历一场悄无声息的“认知投降”&#xff1f;在AI & Society Forum 2026的一场圆桌对话中&#xff0c;腾讯研究院与来自香港大学的哲学、…

作者头像 李华
网站建设 2026/6/13 16:39:29

SysDVR技术解析:基于硬件级捕获的Switch游戏流媒体传输方案

SysDVR技术解析&#xff1a;基于硬件级捕获的Switch游戏流媒体传输方案 【免费下载链接】SysDVR Stream switch games to your PC via USB or network 项目地址: https://gitcode.com/gh_mirrors/sy/SysDVR 问题背景&#xff1a;游戏内容捕获的技术瓶颈 在游戏内容创作…

作者头像 李华
网站建设 2026/6/13 16:39:28

OneDev一体化DevOps平台:5分钟快速搭建智能CI/CD与代码协作系统

OneDev一体化DevOps平台&#xff1a;5分钟快速搭建智能CI/CD与代码协作系统 【免费下载链接】onedev Git Server with CI/CD, Kanban, and Packages. Seamless integration. Unparalleled experience. 项目地址: https://gitcode.com/gh_mirrors/on/onedev 还在为团队开…

作者头像 李华