「论文解读」 A Joint Sequence Fusion Model for Video Question Answering and Retrieval

less than 1 minute read

论文发表时间：2018-08-07 ECCV 2018
论文地址： https://arxiv.org/abs/1808.02559
官方代码： tensorflow https://github.com/yj-yu/lsmdc

研究的问题：视频问答/文本-视频检索
难点：子序列匹配；
现有的方法：
将跨模态特征表示成单个向量进行匹配，只能进行整体匹配，无法匹配到子序列；

1 概述

针对两种模态的序列数据，提出了可以度量子序列的方法；

2 方案

前导知识：深度学习基本知识，CNN，RNN， 视频检索， 视频问答

2.1 模型结构

图1：网络结构

2.2 特征表示

Joint Semantic Tensor Fusion(JSFusion)：针对各模态提取 3D 特征；然后进行融合；使用了软注意力机制；

视频：同时提取了图像和音频特征；每帧图像用 ResNet 的 pooling5 输出作为特征，最多 40 帧；音频用 VGGish 提取特征；
使用的模块有： ResNet-152，PCA，VGGish；
文本：从 LSMDC 数据集上制作一个字典，16824×300 维表示单词特征，一个句子最多 40 个单词；
JST：两个模态的特征进行映射，无法映射的情况直接剔除；

编码：输入成对的序列，文本用双向 LSTM 处理，图像用 CNN 处理；
嵌入：使用了注意力；

2.3 特征（分层）解码

Convolutional Hierarchical Decoder(CHD)：对特征进行分层对齐；使用了 conv-gate 实现的时序注意力；

3 损失函数

使用经典的带间隔的排序损失：
$\begin{align} L &= \sum_k \sum_{l=1}^L \max (0, S_{k, l} - S_{k, l^*}) + \Delta) + \lambda |\theta|^2 \label{loss}\\ \end{align}$ 公式 $\eqref{loss}$ 中 $l^*$ 是正样本， k 是视频；

4 实验

4.1 数据集

M:MSR-VT, L:LSMDC——JSFusion；

4.2 实验结果

4.2.1 精度

图2：检索任务效果

图3：VQA 准确度

4.2.2 速度

5 思考

6 总结

任何多模态序列任务中都可以用这个模型；

TOP

附录

Twitter Facebook LinkedIn

「论文解读」 A Joint Sequence Fusion Model for Video Question Answering and Retrieval

1 概述

2 方案

2.1 模型结构

2.2 特征表示

2.3 特征（分层）解码

3 损失函数

4 实验

4.1 数据集

4.2 实验结果

4.2.1 精度

4.2.2 速度

5 思考

6 总结

附录

Comments

You May Also Enjoy

「论文解读」Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera

「CV」深度估计概述

「工具」 Zotero

「DLFramework」 A311D NPU Demo 使用

1 概述

2 方案

2.1 模型结构

2.2 特征表示

2.3 特征（分层）解码

3 损失函数

4 实验

4.1 数据集

4.2 实验结果

4.2.1 精度

4.2.2 速度

5 思考

6 总结

附录

Comments

You May Also Enjoy

「论文解读」Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera

「CV」 深度估计概述

「工具」 Zotero

「DLFramework」 A311D NPU Demo 使用

「CV」深度估计概述