自回归视觉生成模型实践：从图像到视频的架构突破与演进

2026-05-12

自回归视觉生成模型实践：从图像到视频的架构突破与演进

导语

视觉生成领域正经历从扩散模型主导向自回归及混合架构的深刻演进。自回归模型凭借与大型语言模型（LLM）的天然架构一致性，被视为实现统一多模态生成的关键路径。然而，传统自回归在视觉领域长期面临合成质量低、推理速度慢的质疑。

近期，一系列工作通过重构量化空间与生成范式，大幅缩小了甚至超越了扩散模型的性能边界。本文将深入拆解自回归视觉生成的核心瓶颈，并剖析 Infinity、InfinityStar 与 GRN 三项工作如何通过按位建模、时空金字塔与生成式精炼，为工程实践提供可落地的突破路径。

核心问题与挑战

在将自回归模型应用于视觉生成时，我们面临着从底层表征到顶层架构的多重挑战：

图像合成质量与缩放定律失效：传统自回归模型（如基于VQ-VAE的方案）在高分辨率图像合成上显著弱于扩散模型，且模型与词表规模的扩大未能带来对等的质量收益。
光栅扫描的局限：逐像素或逐Patch的光栅扫描顺序不仅丢失了图像的全局结构信息，还导致推理延迟极高。
视频分词与多尺度信息失衡：视频离散分词器重建质量差，且多尺度特征在时空维度上分布不均，直接迁移图像分词器会导致收敛慢与信息丢失。
算力分配僵化与隐空间推理低效：现有扩散与自回归模型对复杂度不同的样本分配均匀算力，且在含噪隐空间进行推理的效率远低于显式Token空间。

方案与实践

Infinity：按位建模突破图像生成瓶颈

针对传统VQ词表有限与自回归误差累积的问题，Infinity 提出了按位建模框架，在图像生成质量上逼近甚至超越连续模型。

按位分词器（BSQ）：摒弃传统的向量量化（VQ），将特征拆解为比特位进行独立预测。这种机制打破了词表大小的限制，实现了无限词表扩展，量化指标证明其重建性能甚至超越了SD的连续VAE。
无限词表分类器：通过预测 $d$ 个比特位而非 $2^d$ 个索引，模型对轻微扰动更具鲁棒性，有效缓解了传统大词表分类的过拟合问题。
按位自校正：针对自回归模型训练与测试阶段的分布偏差，引入自校正机制，在推理时进行隐式纠错，显著提升了生成画面的视觉质量与结构合理性。

InfinityStar：时空金字塔实现高效视频生成

将自回归扩展至视频领域，核心在于解决长上下文计算与时空信息耦合的挑战。InfinityStar 实现了统一多任务（T2I/T2V/I2V）生成，并带来了10倍的推理加速。

视频分词器优化：采用预训练视频分词器替代图像分词器初始化，大幅提升收敛速度；引入随机量化器深度策略，优先改善早期尺度（全局语义）的重建质量。
时空金字塔建模：将视频分解为序列化片段进行自回归预测，避免传统均匀生长或伪时空金字塔导致的信息断裂。
语义尺度重复（SSR）：在多尺度预测中复用语义特征，解决长视频生成中的结构抖动与运动质量退化问题。
时空稀疏注意力：针对长视频上下文计算开销激增的问题，通过稀疏注意力机制大幅降低计算复杂度，实现交互式长视频生成。

GRN：生成式精炼网络的第三路径

面对扩散模型去噪慢与自回归误差累积的困局，GRN（Generative Refinement Networks）提出了一种融合两者优势的第三路径。

分层二值量化（HBQ）：将多轮量化过程转化为序列化二值分词，Token按从粗到细的顺序排列，早期Token承载全局语义，后期Token补充局部细节。在ImageNet上，HBQ取得了0.56 rFID的SOTA重建指标。
随机选择预测与全局细化：从随机Token图起步，每步随机选择部分位置进行预测，同时对所有输入Token进行全局细化。这种机制打破了单向生成的限制，实现了基于样本复杂度的自适应算力分配，在图像与视频生成基准上均达到SOTA水平。

原则/方法论沉淀

从上述演进中，我们可以提炼出视觉生成架构设计的三大核心原则：

按位量化与自校正破局离散瓶颈：将高维离散问题降维至比特位预测，配合自校正机制，能有效缓解离散表征的误差累积与测试偏差，让离散词表逼近连续模型表现。
时空解耦与金字塔建模应对长上下文：处理视频生成的高计算成本，必须从架构层面进行时空解耦，金字塔建模与稀疏注意力是平衡长上下文与计算开销的关键抓手。
从粗到细与自适应细化优于均匀算力：渐进式生成符合视觉信号本身的层级特性，基于复杂度自适应分配算力的全局细化，在效率与质量上均优于单向均匀生成。

总结与行动建议

自回归视觉生成正在经历从“可用”到“好用”的质变。Infinity 证明了按位建模可以突破离散词表上限；InfinityStar 展示了时空解耦与稀疏注意力在视频生成中的极速潜力；GRN 则指明了自适应精炼作为第三路径的优越性。

对工程团队的建议：

抛弃传统VQ与光栅扫描：在新一代视觉生成架构中，优先考虑BSQ/HBQ等按位/分层量化方案，避免大词表 softmax 带来的计算与收敛灾难。
引入自适应算力机制：在服务端部署时，采用类似GRN的随机预测与细化机制，实现简单样本快速交付、复杂样本深度计算，优化整体吞吐。
视频生成必须时空解耦：不要将时间维度简单拼接到图像生成中，应采用时空金字塔与稀疏注意力，从底层解决显存与延迟问题。

开放问题与延伸方向

Infinity的按位自校正机制在推理阶段具体是如何实现隐式纠错与偏差修正的？
（关联正文自校正机制，需深挖其推理期的梯度干预或逻辑控制细节。）
按位量化(BSQ/HBQ)将特征拆解为比特位预测，是否会导致序列长度呈指数级膨胀并引发长序列误差累积？
（关联正文BSQ/HBQ，需警惕序列极化带来的新增长上下文与误差传导风险。）
GRN的自适应算力分配机制在端侧设备部署时，能否实现真正的动态推理加速与资源节省？
（关联正文GRN细化机制，关注其在实际硬件上的异步调度与内存占用收益。）
所谓“无限词表”分类器是否只是将离散化问题转化为高维连续分类，其softmax计算会否成为新瓶颈？
（关联正文无限词表，需评估比特预测等效的高维分类在底层算子上的开销。）
InfinityStar的时空稀疏注意力机制能否迁移至3D点云或4D场景生成任务中解决长上下文问题？
（关联正文稀疏注意力，探索时空解耦逻辑在更高维度生成任务的泛化性。）
视频分词器的随机量化器深度策略是否会导致不同尺度间特征解耦不彻底，进而影响运动物理合理性？
（关联正文视频分词器，关注多尺度特征纠缠对动态场景物理规律的影响。）
针对自回归视觉模型长视频推理时的KV Cache显存占用问题，下一步的工程优化路径应优先指向何处？
（关联正文长视频推理，显存优化是决定此类架构能否真正落地的工程关键。）
GRN在ImageNet上达到SOTA重建指标的评测条件，是否与主流扩散模型在推理步数与引导强度上完全对齐？
（关联正文GRN评测，需核验对比实验的公平性与引导参数的调优空间。）
能否将GRN的从粗到细全局细化机制与隐空间扩散模型结合，构建兼具全局收敛与局部精修的混合架构？
（关联正文GRN与扩散，探索混合架构在收敛速度与细节生成上的双重突破。）
GRN被称为“第三路径”，但其随机选择预测与细化过程在直觉上更接近扩散去噪，这种定位是否过度包装？
（关联正文GRN定位，需反思其迭代细化与扩散去噪在数学与物理直觉上的本质差异。）