「VIDEO」关键帧提取资源汇总

Fast and Robust Dynamic Hand Gesture Recognition via Key Frames Extraction and Feature Fusion
2019-01-15 paper | matlab-official
$\bullet \bullet$ Hand Gesture Fusion
基于图像熵和视频聚类提取到视频中的关键帧，一次提高手势识别的准确度；

5.2 动作识别

Deep Keyframe Detection in Human Action Videos
2018-04-26 paper
人体行为关键帧的特点：这些关键帧的类别区分度最强；
做法：
- 生成关键帧的label
- 利用 Imagenet 预训练的 VGG-16 提取每一帧的特征
- 根据每个视频的类别，将同一类别的帧组成 Vc
- 对于每一类，利用 LDA 学习一个矩阵，最大化与其他类别的距离
  每一帧的得分为：
- 利用生成的 label，训练一个关键帧得分生成网络
  收获：
- 关键帧的分布与原序列的分布一致（多样性）
- 关键帧的信息冗余尽可能少（离散型）
- 关键帧的个数应该尽可能的少
- 关键帧能够很容易识别出该 id（判别性）
A Key Volume Mining Deep Framework for Action Recognition
CVPR 2016 2016 paper
$\bullet \bullet$ key volume
motivation：视频中包含大量静止画面，如果把这些帧送入网络，会对网络的训练起到一个反向的作用；
做法：将多个帧输入到网络中，只优化对于在目标类中取得最大概率的帧的loss；
思考：用分类来提取关键帧，类别分数越高，越有可能成为关键帧；
问题：测试时输入的帧也有可能不含有动作信息，为什么还要将各个帧的得分平均？是不是也可以考虑像训练集那样只考虑关键帧的预测结果；

5.3 视频摘要

Video Summarization with LongShort-term Memory
ECCV 2016 2016-05-26 paper | blog | theano
用 LSTM 提取关键帧序列；
Unsupervised Video Summarization with Adversarial LSTM Networks
CVPR 2017 2017 paper
$\bullet \bullet$ ALSTM
先验：关键帧的分布应该与原序列的分布一直（去除冗余信息）；
正规化：关键帧的个数应该尽可能的少；关键帧的信息尽可能离散；
做法：
- slstm：输出每一帧的得分，与原来帧加权后得到新的特征；
- elstm：对于lstm得到的特征编码，得到一个特征；
- dlstm：对elstm得到的特征解码，恢复出原来的特征；
- clstm：判断dlstm得到的特征是否还是原来的特征；

处理：根据每一帧的得分选出关键帧

将视频分成不重叠的几个clip；
每个clip的得分是这个clip中所有帧的得分的平均，对clip排序；
高得分的clip中的帧按照分数排序，选出最高的几帧；

5.4 REID

TOP

附录

A 参考资料

Shot transition detection
视频镜头分割方法综述
里边有 C++ 代码；
视频镜头分割
有 python 代码；
python数字图像处理（二）关键镜头检测
https://www.cnblogs.com/lynsyklate/p/7840881.html

B 项目

Twitter Facebook LinkedIn

「VIDEO」关键帧提取资源汇总

1 综述

2 理论

3 关键帧提取

3.1 传统方法

3.2 DL

4 镜头边界检测

4.1 传统方法

4.2 DL

5 应用

5.1 手势识别

5.2 动作识别

5.3 视频摘要

5.4 REID

附录

A 参考资料

B 项目

Comments

You May Also Enjoy

「论文解读」Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera

「CV」深度估计概述

「工具」 Zotero

「DLFramework」 A311D NPU Demo 使用

1 综述

2 理论

3 关键帧提取

3.1 传统方法

3.2 DL

4 镜头边界检测

4.1 传统方法

4.2 DL

5 应用

5.1 手势识别

5.2 动作识别

5.3 视频摘要

5.4 REID

附录

A 参考资料

B 项目

Comments

You May Also Enjoy

「论文解读」Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera

「CV」 深度估计概述

「工具」 Zotero

「DLFramework」 A311D NPU Demo 使用

「CV」深度估计概述