less than 1 minute read

论文发表时间:2018-08-07 ECCV 2018
论文地址: https://arxiv.org/abs/1808.02559
官方代码: tensorflow https://github.com/yj-yu/lsmdc

  • 研究的问题:视频问答/文本-视频检索
  • 难点:子序列匹配;
  • 现有的方法
    将跨模态特征表示成单个向量进行匹配,只能进行整体匹配,无法匹配到子序列;

1 概述

针对两种模态的序列数据,提出了可以度量子序列的方法;

2 方案

前导知识:深度学习基本知识CNNRNN视频检索视频问答

2.1 模型结构


图1:网络结构

2.2 特征表示

Joint Semantic Tensor Fusion(JSFusion):针对各模态提取 3D 特征;然后进行融合;使用了软注意力机制;

视频:同时提取了图像和音频特征;每帧图像用 ResNet 的 pooling5 输出作为特征,最多 40 帧;音频用 VGGish 提取特征;
使用的模块有: ResNet-152,PCA,VGGish;
文本:从 LSMDC 数据集上制作一个字典,16824×300 维表示单词特征,一个句子最多 40 个单词;
JST:两个模态的特征进行映射,无法映射的情况直接剔除;

  • 编码:输入成对的序列,文本用双向 LSTM 处理,图像用 CNN 处理;
  • 嵌入:使用了注意力;

2.3 特征(分层)解码

Convolutional Hierarchical Decoder(CHD):对特征进行分层对齐;使用了 conv-gate 实现的时序注意力;

3 损失函数

使用经典的带间隔的排序损失:
\(\begin{align} L &= \sum_k \sum_{l=1}^L \max (0, S_{k, l} - S_{k, l^*}) + \Delta) + \lambda |\theta|^2 \label{loss}\\ \end{align}\) 公式 $\eqref{loss}$ 中 $l^*$ 是正样本, k 是视频;

4 实验

4.1 数据集

M:MSR-VT, L:LSMDC——JSFusion;

4.2 实验结果

4.2.1 精度


图2:检索任务效果

图3:VQA 准确度

4.2.2 速度

5 思考

6 总结

任何多模态序列任务中都可以用这个模型;


TOP

附录

Comments