DepthAnything V2论文笔记

Depth Estimation

Computer Vision

发布日期: 2024-06-11

Title: Depth Anything V2
From HKU & TikTok.
ArXiv 2024.06.13

Highlight

本文从分析最近的两个深度估计的工作Depth Aynthing V1和Diffusion-based深度估计工作Marigold的性能对比来总结各自的优缺点，然后提出改进方向。
如图1所示，作者发现Depth Anything V1对细节估计效果差一些，而Marigold对于一些复杂场景的预测效果会差一点。
作者提出导致这两个问题的根源不是由于模型本身的差异，而是训练数据。

图1. Preferable Properties.

图2. DepthAnything V2.

loss上使用的是scale and shift-invariant loss $L_{ssi}$ and a gradient matching loss $L_{gm}$. 并且忽略了top-n(10%)-largest regions.
不过文章并没有说明，第二步打的伪标签是准确的，因为毕竟第一步说了和真实数据有domain gap，那么打的伪标签也有这个问题的话对第三步影响岂不是很大？