DepthAnything V2论文笔记


Title: Depth Anything V2
From HKU & TikTok.
ArXiv 2024.06.13

Highlight

  • 本文从分析最近的两个深度估计的工作Depth Aynthing V1和Diffusion-based深度估计工作Marigold的性能对比来总结各自的优缺点,然后提出改进方向。
  • 如图1所示,作者发现Depth Anything V1对细节估计效果差一些,而Marigold对于一些复杂场景的预测效果会差一点。
  • 作者提出导致这两个问题的根源不是由于模型本身的差异,而是训练数据。

图1. Preferable Properties.

Methods

  • 方法分为三步
  • (1)只使用合成数据来训练largest teacher模型,因为合成数据的深度信息准确度是非常高的,但是缺点就是和真实数据有一定domain gap。
  • (2)因此,第二步是在大规模真实数据上使用largest teacher打伪标签。
  • (3)第三步是在pseudo-labeled real images 上训student model。

图2. DepthAnything V2.

  • loss上使用的是scale and shift-invariant loss $L_{ssi}$ and a gradient matching loss $L_{gm}$. 并且忽略了top-n(10%)-largest regions.

  • 不过文章并没有说明,第二步打的伪标签是准确的,因为毕竟第一步说了和真实数据有domain gap,那么打的伪标签也有这个问题的话对第三步影响岂不是很大?

Experiments

Experiments.

Thoughts

  • 如何缩小合成数据和真实数据之间的domain gap。

文章作者: David Chan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 David Chan !
评论
  目录