Title: Autoregressive Image Generation without Vector Quantization
From MIT.
ArXiv 2024.06.17
Highlight
作者认为自回归图像生成模型中用到的vector-quantized tokens限制了模型性能,因为离散化的空间更便于表示类别分布,但是对于图像像素级别的自回归建模是不必要的。
因此作者提出使用diffusion过程来建模每一个token的概率分布,这样可以在自回归模型中使用连续值空间,另外定义了一个扩散loss来建模每个token的概率。
另外作者想从一个统一的自回归视角去看mask generative models. 即在一个随机顺序下同时预测多个tokens。

Methods
如图1所示,整体上是想预测每个token的概率分布,想要预测x,但不直接预测x,而是用预测值z当condition来去噪x,达到建模x分布的作用。
这里为什么直接自回归x不行啊,比如用mse训?
温度T在自回归任务中很重要,因为控制着样本的多样性,所以作者在这里也对噪声通过T rescale了一下。不知道scale noise 在常规的diffusion模型训练中是否会有用?

Experiments

Thoughts
- Diffusion可以作为一种建模数据分布的方式看起来可以作为一个小的模块来灵活使用。
- 文章没说明在baseline基础上将Vector Quantization改为连续的为什么效果不好,Diffusion来建模效果就好了。
- 或者有其他的比diffusion建模数据分布更好的方式。