less than 1 minute read

论文发表时间:2018-08-07 ECCV 2018
论文地址: https://arxiv.org/abs/1808.02559
官方代码: tensorflow https://github.com/yj-yu/lsmdc

  • 研究的问题:视频问答/文本-视频检索
  • 难点:子序列匹配;
  • 现有的方法
    将跨模态特征表示成单个向量进行匹配,只能进行整体匹配,无法匹配到子序列;

1 概述Permalink

针对两种模态的序列数据,提出了可以度量子序列的方法;

2 方案Permalink

前导知识:深度学习基本知识CNNRNN视频检索视频问答

2.1 模型结构Permalink


图1:网络结构

2.2 特征表示Permalink

Joint Semantic Tensor Fusion(JSFusion):针对各模态提取 3D 特征;然后进行融合;使用了软注意力机制;

视频:同时提取了图像和音频特征;每帧图像用 ResNet 的 pooling5 输出作为特征,最多 40 帧;音频用 VGGish 提取特征;
使用的模块有: ResNet-152,PCA,VGGish;
文本:从 LSMDC 数据集上制作一个字典,16824×300 维表示单词特征,一个句子最多 40 个单词;
JST:两个模态的特征进行映射,无法映射的情况直接剔除;

  • 编码:输入成对的序列,文本用双向 LSTM 处理,图像用 CNN 处理;
  • 嵌入:使用了注意力;

2.3 特征(分层)解码Permalink

Convolutional Hierarchical Decoder(CHD):对特征进行分层对齐;使用了 conv-gate 实现的时序注意力;

3 损失函数Permalink

使用经典的带间隔的排序损失:
L=kLl=1max(0,Sk,lSk,l)+Δ)+λ|θ|2 公式 (???)l 是正样本, k 是视频;

4 实验Permalink

4.1 数据集Permalink

M:MSR-VT, L:LSMDC——JSFusion;

4.2 实验结果Permalink

4.2.1 精度Permalink


图2:检索任务效果

图3:VQA 准确度

4.2.2 速度Permalink

5 思考Permalink

6 总结Permalink

任何多模态序列任务中都可以用这个模型;


TOP

附录Permalink

Comments