MAR 论文笔记

Computer Vision

发布日期: 2024-06-22

Title: Autoregressive Image Generation without Vector Quantization
From MIT.
ArXiv 2024.06.17

Highlight

作者认为自回归图像生成模型中用到的vector-quantized tokens限制了模型性能，因为离散化的空间更便于表示类别分布，但是对于图像像素级别的自回归建模是不必要的。
因此作者提出使用diffusion过程来建模每一个token的概率分布，这样可以在自回归模型中使用连续值空间，另外定义了一个扩散loss来建模每个token的概率。
另外作者想从一个统一的自回归视角去看mask generative models. 即在一个随机顺序下同时预测多个tokens。

图1. Diffusion Loss.

如图1所示，整体上是想预测每个token的概率分布，想要预测x，但不直接预测x，而是用预测值z当condition来去噪x，达到建模x分布的作用。
这里为什么直接自回归x不行啊，比如用mse训？
温度T在自回归任务中很重要，因为控制着样本的多样性，所以作者在这里也对噪声通过T rescale了一下。不知道scale noise 在常规的diffusion模型训练中是否会有用？

图2. Generalized Autoregressive Models.