「论文解读」每日 arXiv · 2019-03-20

less than 1 minute read

https://arxiv.org/list/cs/new

计算机视觉

1. YOLLO：结合视听的视觉定位

发表时间：2019-02-12
标签：视觉定位，语音，检测

Deng, C., Wu, Q., Xu, G., Yu, Z., Xu, Y., Jia, K., & Tan, M. (2019). You Only Look & Listen Once: Towards Fast and Accurate Visual Grounding. http://arxiv.org/abs/1902.04213.

背景：视觉定位（Visual Grounding）是指给定一张图片及一个句子，从图片中找出最相关的对象或区域；与目标检测不同之处在于，检测需要事先定好类别（标签），而视觉定位是根据任意的语音指令来给出图像中相关的区域；所以，实际应用中视觉定位更有用；
问题：过去视觉定位算法都是分为两个阶段，第一阶段检测出所有目标，第二阶段对目标区域和指令进行跨模式匹配；这个方法本身就低效，更何况第一阶段的检测本身就不够准确；
解决：我们提出了一种更高效、更直观的单阶段视觉定位模型；在检测阶段加入了关系注意力模块，他可以将图像和指令的关系转化为关系图，用来指导检测直接找到目标，无需提取其他不相关的目标；
结果：相比两阶段的方法，本文的方法在推理时速度提升20 - 30 倍，并且效果也有 18% - 41% 的提升；
代码和模型：https://github.com/openblack/rvg

2. HRNet：人体姿态估计的深度高分辨率学习

发表时间：2019-02-25
标签：姿态估计，高分辨率，CVPR 2019

Sun, K., Xiao, B., Liu, D., & Wang, J. (2019). Deep High-Resolution Representation Learning for Human Pose Estimation. http://arxiv.org/abs/1902.09212.

背景：之前的方法都是先下采样再上采样，这个过程中有信息丢失；
方案：我们让整个网络一直保持高分辨率，期间逐级不断融合低分辨率的网络；
实验：在 COCO 关键点检测和 MPII 数据集上进行了网络性能验证；
主页：https://jingdongwang2017.github.io/Projects/HRNet/PoseEstimation.html.
官方 pytorch 代码：https://github.com/leoxiaobin/deep-high-resolution-net.pytorch.

Twitter Facebook LinkedIn

「论文解读」每日 arXiv · 2019-03-20

计算机视觉

1. YOLLO：结合视听的视觉定位

2. HRNet：人体姿态估计的深度高分辨率学习

Comments

You May Also Enjoy

「论文解读」Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera

「CV」深度估计概述

「工具」 Zotero

「DLFramework」 A311D NPU Demo 使用

计算机视觉

1. YOLLO：结合视听的视觉定位

2. HRNet：人体姿态估计的深度高分辨率学习

Comments

You May Also Enjoy

「论文解读」Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera

「CV」 深度估计概述

「工具」 Zotero

「DLFramework」 A311D NPU Demo 使用

「CV」深度估计概述