「CV」 深度估计概述
相关资源:深度估计资源
depth estimate
· black-box attack
· white-box attack
· adversarial learning
perturbation detection
1 介绍
深度估计以转化估计为主,即基于二维 RGB 图像估计出 RBG-D 图像,其主要是从图像明暗、不同视角、光度、纹理信息等获取场景深度形状;还有结合SFM(Structure from motion)和SLAM(Simultaneous Localization And Mapping)等方式预测相机位姿的算法;
深度估计是计算机视觉领域的一个基础性问题,可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域;虽然有很多设备可以直接获取深度,但是设备造价昂贵;也可以利用双目进行深度估计,但是由于双目图像需要利用立体匹配进行逐像素视差计算,所以计算复杂度较高,且对于低纹理场景的匹配效果不好;而单目深度估计则相对成本更低,更容易普及;
单目深度估计不仅需要从二维图像中学会客观的深度信息,而且需要提取一些经验信息,后者则对于数据集中相机和场景会比较敏感;
2 分类
2.1 按学习方式分
2.1.1 监督学习
图片对应有一张深度图作为标签;
2.1.2 无监督学习
使用双目数据做监督,从双目预测视差变化,以相机位姿作为标签进行训练;
2.1.3 Struct from motion
基于视频的,以视频序列获取多视角图像,进行相机位姿估计;
1 回归任务
回归任务就是把CNN预测出来的像素值通过学习逼近ground truth,直接将预测出来的深度值和真实的深度值进行RMSE,没有离散化的过程。
2 分类任务
训练神经网络,把连续的像素值分类放置在不同的区间内。在分类任务中用到比较多的方法是条件随机场。此外,划分区间也有不同的方法。有直接等距离划分区间的,有在对数空间划分区间的
3 评价指标
通常误差越小越好,精确度越高越好;
-
ABS REL 绝对相对误差: \(\begin{align} AbsRel &= \frac{1}{N} \sum_{i=1}^{N} \frac{\vert D_i - D_i^* \vert} {D_i^*} \label{absrel}\\ \end{align}\)
-
SqREL 平方相对误差:
\(\begin{align} SeRel &= \frac{1}{N} \sum_{i=1}^{N} \frac{\left| D_i - D_i^* \right|^2} {D_i^*} \label{serel}\\ \end{align}\) -
RMS 均方根误差:
\(\begin{align} RMS &= \sqrt[]{\frac{1}{N} \sum_{i=1}^{N} {\left| D_i - D_i^* \right|^2}} \label{rms}\\ \end{align}\) -
LOG RMS 对数均方根误差:
\(\begin{align} logRMS &= \sqrt[]{\frac{1}{N} \sum_{i=1}^{N} {\left| \log D_i - \log D_i^* \right|^2}} \label{logrms}\\ \end{align}\) -
精确度(%correct): \(\begin{align} \max \left( \frac{D_i}{D_i^*}, \frac{D_i^*}{D_i} \right) &= \delta < T \label{correct}\\ \end{align}\)
$N$:像素总数,$D_i$:第 $i$ 个像素的估计深度值;$D_i^*$:第 $i$ 个像素对应的真实深度值;
$T$:Threshold, used in the accuracy metric as a convention in the literature.
附录
A 参考资料
- 单目图像深度估计 - 相对深度篇:Depth in the Wild & Size to Depth[EB/OL]. https://blog.csdn.net/qunniem/article/details/116269273. 2021-04-29/2022-02-18.
- 单目深度估计技术进展综述[EB/OL]. https://blog.csdn.net/MengYa_Dream/article/details/119924346. 2021-09-01/2022-02-18.
- 基于深度学习的单目深度估计综述[EB/OL]. https://zhuanlan.zhihu.com/p/111759578. 2020-03-08/2022-02-18.
Comments