Title: Depth Anything V2
From HKU & TikTok.
ArXiv 2024.06.13
Highlight
- 本文从分析最近的两个深度估计的工作Depth Aynthing V1和Diffusion-based深度估计工作Marigold的性能对比来总结各自的优缺点,然后提出改进方向。
- 如图1所示,作者发现Depth Anything V1对细节估计效果差一些,而Marigold对于一些复杂场景的预测效果会差一点。
- 作者提出导致这两个问题的根源不是由于模型本身的差异,而是训练数据。
Methods
- 方法分为三步
- (1)只使用合成数据来训练largest teacher模型,因为合成数据的深度信息准确度是非常高的,但是缺点就是和真实数据有一定domain gap。
- (2)因此,第二步是在大规模真实数据上使用largest teacher打伪标签。
- (3)第三步是在pseudo-labeled real images 上训student model。
loss上使用的是scale and shift-invariant loss $L_{ssi}$ and a gradient matching loss $L_{gm}$. 并且忽略了top-n(10%)-largest regions.
不过文章并没有说明,第二步打的伪标签是准确的,因为毕竟第一步说了和真实数据有domain gap,那么打的伪标签也有这个问题的话对第三步影响岂不是很大?
Experiments
Thoughts
- 如何缩小合成数据和真实数据之间的domain gap。