「CV」深度估计概述

less than 1 minute read

相关资源：深度估计资源

depth estimate · black-box attack · white-box attack · adversarial learning
perturbation detection

1 介绍

深度估计以转化估计为主，即基于二维 RGB 图像估计出 RBG-D 图像，其主要是从图像明暗、不同视角、光度、纹理信息等获取场景深度形状；还有结合SFM(Structure from motion)和SLAM(Simultaneous Localization And Mapping)等方式预测相机位姿的算法；
深度估计是计算机视觉领域的一个基础性问题，可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域；虽然有很多设备可以直接获取深度，但是设备造价昂贵；也可以利用双目进行深度估计，但是由于双目图像需要利用立体匹配进行逐像素视差计算，所以计算复杂度较高，且对于低纹理场景的匹配效果不好；而单目深度估计则相对成本更低，更容易普及；单目深度估计不仅需要从二维图像中学会客观的深度信息，而且需要提取一些经验信息，后者则对于数据集中相机和场景会比较敏感；

2 分类

2.1 按学习方式分

2.1.1 监督学习

图片对应有一张深度图作为标签；

2.1.2 无监督学习

使用双目数据做监督，从双目预测视差变化，以相机位姿作为标签进行训练；

2.1.3 Struct from motion

基于视频的，以视频序列获取多视角图像，进行相机位姿估计；

1 回归任务

回归任务就是把CNN预测出来的像素值通过学习逼近ground truth，直接将预测出来的深度值和真实的深度值进行RMSE，没有离散化的过程。

2 分类任务

训练神经网络，把连续的像素值分类放置在不同的区间内。在分类任务中用到比较多的方法是条件随机场。此外，划分区间也有不同的方法。有直接等距离划分区间的，有在对数空间划分区间的

3 评价指标

通常误差越小越好，精确度越高越好；

ABS REL 绝对相对误差： $\begin{align} AbsRel &= \frac{1}{N} \sum_{i=1}^{N} \frac{\vert D_i - D_i^* \vert} {D_i^*} \label{absrel}\\ \end{align}$
SqREL 平方相对误差：
$\begin{align} SeRel &= \frac{1}{N} \sum_{i=1}^{N} \frac{\left| D_i - D_i^* \right|^2} {D_i^*} \label{serel}\\ \end{align}$
RMS 均方根误差：
$\begin{align} RMS &= \sqrt[]{\frac{1}{N} \sum_{i=1}^{N} {\left| D_i - D_i^* \right|^2}} \label{rms}\\ \end{align}$
LOG RMS 对数均方根误差：
$\begin{align} logRMS &= \sqrt[]{\frac{1}{N} \sum_{i=1}^{N} {\left| \log D_i - \log D_i^* \right|^2}} \label{logrms}\\ \end{align}$
精确度(%correct)： $\begin{align} \max \left( \frac{D_i}{D_i^*}, \frac{D_i^*}{D_i} \right) &= \delta < T \label{correct}\\ \end{align}$

$N$：像素总数，$D_i$：第 $i$ 个像素的估计深度值；$D_i^*$：第 $i$ 个像素对应的真实深度值；
$T$：Threshold, used in the accuracy metric as a convention in the literature.

TOP

附录

A 参考资料

单目图像深度估计 - 相对深度篇：Depth in the Wild & Size to Depth[EB/OL]. https://blog.csdn.net/qunniem/article/details/116269273. 2021-04-29/2022-02-18.
单目深度估计技术进展综述[EB/OL]. https://blog.csdn.net/MengYa_Dream/article/details/119924346. 2021-09-01/2022-02-18.
基于深度学习的单目深度估计综述[EB/OL]. https://zhuanlan.zhihu.com/p/111759578. 2020-03-08/2022-02-18.

Twitter Facebook LinkedIn

「CV」深度估计概述

1 介绍

2 分类

2.1 按学习方式分

2.1.1 监督学习

2.1.2 无监督学习

2.1.3 Struct from motion

1 回归任务

2 分类任务

3 评价指标

附录

A 参考资料

Comments

You May Also Enjoy

「论文解读」Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera

「工具」 Zotero

「DLFramework」 A311D NPU Demo 使用

「DLFramework」 A311D NPU 神经网络模型部署【Tengine】