Title: Lumiere: A Space-Time Diffusion Model for Video Generation
From Google
ArXiv 2024.02.05

Highlight
- 背景:训练一个large-scale text-to-video(T2V) Foundation model是非常challenge的,因为引入了motion这个复杂度,同时时间维度增加也带来了更大的内存和计算量的消耗,需要的训练数据量也非常大。如下图(a)所示,已有的T2V的方法需要先使用一个base model生成一些关键帧,然后使用级联时间超分模型(cascade of temporal super-resolution (TSR) models)来扩充中间帧,然后在一些没有重叠的window上使用空间超分模型(spatial super-resolution (SSR) model)来获得高分辨率的结果。
- 如图b所示,本文提出的Lumiere模型提出STUNet来直接一步到位生成所有的帧,然后在一些重叠的windows上使用SSR来获得分辨率更高的视频(MultiDiffusion)。

- Lumiere可以比较好地迁移到各种视频生成任务上,比如,视频风格生成,有条件生成,Image2Video,Inpainting,Cinemagraphs(在一副静态图像上画一个框,只生成框内的视频)
Methods

- StuNet(SpaceTime UNet)是在一个预训练好的T2I U-Net结构上在video的space和time上都进行下采样和上采样。
- Convolution-based blocks是一个pre-trained T2I layers紧跟着一个space-time convolution。
- Attention-based blocks是在原始的UNet层的pre-trained T2I layers跟上多个时间attention层。
- Multidiffusion for Spatial-Super Resolution. 在时间维度重叠的windows上应用了MultiDiffusion进行线性融合获得最终的结果。
- 只有新加的这些时间层是要训练的,原始的T2I权重是固定住的。
Experiments
1. Stylized Generation
- 通过将fine-tuned T2I weights和原始的T2I weights进行线性插值可以获得较好的风格迁移视频。

2. Conditional Generation
- 拓展了输入的形式来兼容多个任务,将Noisy video(TxHxWx3),masked conditioning(TxHxWx3),binary mask(TxHxWx1)concat成7通道的输入,然后根据任务,比如Image-to-Video,Inpainting等来调整mask condition和binary mask的输入。
- 有微调阶段。
Thoughts
- Video生成直接一步到位生成多帧是合理的,但是最大的问题是资源消耗大的问题,因此SpaceTime卷积和SpaceTime Attention要做得足够好才能将feature降维到一个计算量能接受的程度。