less than 1 minute read

AAAI 2019
论文发表时间:2018-11-05
作者:何栋梁,Zhichao Zhou,Chuang Gan,Fu Li,Xiao Liu,Yandong Li,Limin Wang,Shilei Wen
机构:百度,MIT-IBM Watson AI Lab,University of Central Florida,南京大学
论文地址:https://arxiv.org/abs/1811.01549
代码:Pytorch https://github.com/hyperfraise/Pytorch-StNet

  • StNet 怎么提取视频特征的
  • Temporal Xception Block 是什么
  • Temporal Modeling Block 是什么
  • 怎么提取时序特征的

1 概述

第一句:使用卷积网络(2D 和 3D 卷积)提取视频特征; 第二句:针对视频特征提取提出了 TXB 来获取时域特征;

2 方案

前导知识:CNN深度学习基本知识


图1:StNet 示意图(基于 ResNet)

2.1 Super Image

提取局部时空特征;

2.2 Temporal Modeling Block

提取全局时空特征;使用 3D 卷积——Conv(3, 1, 1);

2.3 Temporal Sception Block

3 损失函数

\(\begin{align} \label{loss}\\ \end{align}\)

4 实验

4.1 数据集

4.2 实验结果

5 思考

1 StNet 怎么提取视频特征的

局部信息用二维卷积提取;网络层中加入 TMB 进行时序特征提取;

2 StNet 的输入是什么

$T \times 3N \times H \times W$

3 N 和 T 对模型效果有什么影响

4 Temporal Modeling Block 和 Temporal Xception Block 是什么,有什么区别

5 为什么 Temporal Modeling Block 中 3D 卷积核要用 1×1

6 网络怎么提取时序特征的

7 为什么要用 2D 卷积处理多帧图像,效果和 3D 卷积结果有什么不同

6 总结

对于视频特征提取,局部信息用二维卷积提取;然后在这些特征上应用时间 Xception 块,提取全局特征;模型小,效果好;


TOP

Comments