1 minute read


shot detection · key frame detection · video summary video abstract · video synopsis · video key frame extraction · video key clip extraction · video summarization · key frame Detection

对视频内容的一个简单概括,常见的就是宣传片(片花);以自动或半自动的方式,通过分析视频的结构和内容存在的时空冗余,从原始视频中提取有意义的片段/帧;
相关资源:视频摘要资源汇总

该研究最早始于1994 年 CMU 大学的 Informedia 工程, 随后德国曼海姆大学、FX Palo Alto 实验室、Minnesota大学、MITRE 公司、哥伦比亚大学与微软研究院等都在这方面进行了较为深入的研究,分别提出了各自的视频摘要策略,视频摘要的表现形式也由最初的静态摘要转变为现在的动态缩略视频;

1 视频摘要

从最终呈现形态来看,分为静态摘要和动态摘要;

1.1 静态

又叫视频概要、视频略览;是静态视频摘要模式,就是关键帧的浏览;

通过一系列关键帧的堆叠,来概括镜头内容,并支持视频快速导航;该方法虽然也可以缩短视频的时长,但是合成后视频给人一种快进看电影的感觉,而且实际使用较少;
特点:静态视频摘要只考虑其关键帧(对象),忽略了音频信息,生成摘要的速度比动态的快;
常用方法有 SEDIM,SEDIM-IN,CEA,TEA;1

1.2 动态

又叫视频概述、缩略视频、视频浓缩;是动态视频摘要模式,由几段浓缩的视频内容的视频片段组成;

保留了视频语义,一般是选择能够刻画原视频内容的小片段组合而成;所谓的「浓缩」就是提取运动目标及其轨迹,然后进行分析合成;
特点:以镜头问单位,融合了图像、声音和文字等信息,语义丰富;

1.2.1 堆叠

  1. 视频概述
    Summary sequence,对整个视频内容的浓缩,侧重于摘要内容的全面

  2. 精彩片段
    Highlight,提取原始视频中最吸引人的部分,侧重于提取视频的最重要片段

1.1.2 融合

video synopsis,实现了将多帧视频融合为 1 帧,是一种将时间叠加到空间上的转换;将不同时间上的事件显示到同一张画面上;
设计到背景提取,目标提取,轨迹分析和拼接;
适用范围:目标物体较少的长视频离线浓缩;

2 生成过程

需要对非结构化的图像流进行处理,使之成为结构化的数据,这个过程称为视频结构化,又叫视频分析;采用先分后合,包括视频分割和场景重构两个过程;2

2.1 视频分割

先检测到不同的镜头,然后在各镜头内提取关键帧;

视频分割基本单位有帧、镜头和场景;是视频数据的最小单元,是一幅静止的画面,镜头是由帧组成的视频数据的基本单位,是摄像头的一次连续的动作,只能拍摄相邻地点连续发生的事情,场景由内容相近的镜头组成,从不同的角度描述同一个事件,视频是由许多场景组成,叙述一个完成的故事;针对视频内容的结构化提取是通过自底向上的方法从每一帧中分析出结构化信息;

2.1.1 镜头分割

常见方法有突变检测和渐变(淡入淡出、慢转换)检测;

2.1.2 关键帧提取

镜头内帧间相似度较高,可以利用图论、曲线分裂、聚类和奇异值分解的方法提取关键帧;这些方法的基本思想是把一帧看成是多维特征空间中的一点, 选择的关键帧是点的子集, 这些点集能够覆盖特征距离内的其它点, 或者能够表明场景内容的变化;

目前在基于 MPEG-1/2 的数字视频索引与检索模型中,主要是基于关键帧(代表帧)表示视频序列的概略信息;关键帧是从视频中抽取的一些静态图像,用于表示镜头的内容,以此实现视频内容的快速浏览,并能够与视频索引技术等相结合,进行基于内容的视频检索与分析,其浏览方式包括 故事板场景转移图 等;(基于故事板的浏览方式为将提取后的关键帧以缩略图的形式按照时间顺序显示和浏览;缩略图的周围还伴随关键帧相关属性,包括该镜头持续时间和摄像机运动等;)

啥是故事板 啥是场景转移图

2.1.1 基于镜头边界

直接取每个镜头的首末帧和中间帧作为关键帧;
优势是实现最简单,运算量小,但是对摄像机快速运动的镜头表现能力有限;

2.1.2 基于视觉内容

通过颜色纹理等视觉信息的变化来提取关键帧;当信息变化较大时即可作为关键帧;

2.1.3 基于运动分析

即光流计算;通过光流分析运动量,在运动量取局部最小值时即为关键帧,他反映了视频数据的静止部分;
缺点是计算量巨大,且局部最小值也未必准确;

2.1.4 基于聚类

主要是针对视频特征聚类,综合考虑镜头内和镜头间的相关性,依据时间和内容上高度相关性将视频划分为不同的类,然后选取最不相关的帧作为关键帧;
计算高效,可获取变化显著的帧,但不能有效保存镜头内图像帧的时间顺序和动态信息;
关键帧聚类时,视频低层特征有一定的相似性,且时序比较一致;比如基于主颜色进行相似匹配,其它还有基于匹配块、基于颜色直方图等;但是视频帧低层特征相似距离小并不一定表示帧本身的内容相似,故基于语义的相似度量将是视频分析研究的重点;
目前使用较多的方法;

2.1.5 基于多模态

是模仿人类感知能力;一般是综合视频音频、文本等进行分析;因为在电影、体育等视频中场景切换时,视频与音频内容往往同时变化,所以当镜头边界的音频和视频特征同时变化较大时,该镜头边界为新的场景边界;

2.2 场景融合

又叫视频融合,因受主观影响更大,所以难度更高,很难实现全自动的融合;主要包括时间约束聚类算法和多媒体特性检测算法;前者注重注重时间紧凑,后者注重语义变化;

2.2.1 背景帧建模

为了生成一张背景图片,包括抽取静止帧,归一化,均值法,中值法,滑动平均滤波,单高斯,混合高斯模型和 codebook 等;

2.2.2 运动目标检测

包括帧间差,背景建模,混合高斯等

2.2.3 轨迹提取

包括光流,meanshift,camshift,KCF,TLD,STC,staple,multi-cut 等

2.2.4 轨迹优化算法

保证摘要后同一帧中的目标物尽量不重合或者最小化的减少重合覆盖问题

2.2.5 目标背景融合拼接

包括阿尔法融合,泊松融合等方法

3 技术路线

视频摘要是视频分析和基于内容的视频检索中重要的一环;

5 应用场景

4.1 安防领域

1. 公安行业
关键道路、卡口视频智能摘要;在视频监控系统中,对原始视频进行浓缩,可以快速浏览,锁定检索对象,能够满足公安,网监,刑侦的各种需求及应用;

  1. 交通行业
    重点路段、收费闸口视频智能摘要;

  2. 监狱看守所
    重点监舍、人员交接班视频智能摘要;

  3. 大型展会
    场馆、出入口视频智能摘要;

  4. 电信行业
    相关网店、基站、机房视频智能摘要;

  5. 电力行业
    相关变电站、电力设备;

4.2 视频服务

观看视频之前,我们更想知道视频主题是什么、精华信息有哪些;

目前在市场中,大部分以视频监控为主营业务的企业均有涉及相关研发,视频摘要是其中一种智能分析技术;现在市场上能够把这些智能分析技术(视频摘要、视频检索、视频增强、人脸识别)同时做成熟的公司不多,但技术本身已经接近成熟;特别是对有处理大量摄像头视频需求的公安局侦查、破案和并案很有帮助;

5 发展趋势

  1. 多模态
    融合图像、视频、音频以及文本等多种媒体内容的视频摘要;大量的实验证明, 将各种媒体的特征有机地结合在一起, 才能最大限度地让用户在短时间内迅速理解并获取视频的内容,如标题与故事板相结合的摘要形式必定会比单一的标题或故事板的摘要形式更容易让人理解;视频摘要本来不就是指的包括所有信息吗,怎么非要提出个多模态;非要把母鸡说成是下蛋母鸡吗

  2. 交互式

    允许用户指定摘要的形式,摘要哪方面的内容, 便于用户自己设计个性化的摘要;

    现在的视频摘要需事先指定生成者意图,进而定制摘要;但未来的视频摘要会根据用户需求对内容进行自适应的表现;
    具体体现在允许用户对视频片段进行标注,允许用户调整缩略的压缩比;现在不是也可以吗,这跟技术无关,完全是功能性控制

  3. 个性化
    通过对用户交互记录的分析,进而生成个性化的缩略视频;比如,可以通过交互式的地图以及时间线的方法对新闻视频按地区和时间进行快速信息的获取;

6 产品

6.1 国际3

6.1.1 informedia

1997 年 CMU 的 informedia 是针对新闻视频的;

6.1.2 MoCA

同样是 CMU 的产品,针对电影的;

6.1.3 briefcam

在监控视频方面以色列 briefcam (耶路撒冷希伯来大学)是行业领导者;
briefcam 开发的系统主要是用于监控录像内容的视频概要技术回顾、分析并索引而开发的;BriefCam 视频摘要是一个易于使用的离线应用系统,帮助用户快速回顾录像片段、创建、查看并导出摘要视频供调查使用;

6.1.4 VideoQ

哥伦比亚大学的 VideoQ;

6.1.5 CueVideo

IBM 的 CueVideo;

6.2 国内

早年间主要是引进 briefcam 并模仿;

6.2.1 海康威视

视频摘要子系统

  1. 文件定位
    从海量的视频文件中迅速定位播放相关事件的视频,找出有价值的视频信息,缩短视频回放翻查时间,节省人力成本,使查看所有视频成为日常工作的一部分;也就是先检索,再摘要
  2. 视频摘要
    对重点监控区域的录像文件进行特征分析,使原来需要数小时查看的文件,在几分钟内可以快速浏览查看;用户通过摘要回放,可以快捷的预览视频覆盖时间内的可疑事件和事件发生时间,并可以根据摘要短片中的单个事件索引,直接链接播放可疑事件的原始视频,观看整个事件的真实情况;这段话很商务
  3. 物体搜索
    对处理后什么是处理后,指的是前两个流程,还是额外的特征提取流程的视频文件进行物件特征搜索功能,用户可以通过设置活动物件大小、移动方向以及颜色等信息,对大范围的视频进行搜索,找出与用户设置信息类似的物件,并支持回溯到原始视频;用的是基于内容的视频检索,但是怎么实现的还没头绪 效果怎么样

6.2.2 图鸭科技

主要业务是会议场景相关的视频摘要,将视频摘要与文本摘要相结合,用更精准简单的结果向用户展示一个完整的会议场景,在缩减用户观看视频时间的同时,也使视频的内容变得更加简单;
图鸭科技专注于视频通信、压缩和分析,致力于让视频的每一帧变得更小更智能;邮箱 dumengping@tucodec.com;

7 总结

视频摘要技术已经广泛使用在安防行业各种应用场景;多年以来一直是国内外多媒体研究的热点之一,面向监控视频的视频摘要技术具有很大的商业应用前景;


TOP

附录

A 参考资料

B 问题

1.关键帧提取和视频摘要的关系

关键帧是视频摘要的第一步操作;

  1. Yael Pritch, et al. Video Synopsis and Indexing[EB/OL]. http://www.vision.huji.ac.il/video-synopsis/

  2. C114通信网. 视频摘要技术在视频分析领域的作用[OB/OL]. http://www.c114.com.cn/anfang/4324/a877568.html. 2015-01-13/2019-08-15. 

  3. 百度百科. 视频摘要[OB/OL]. https://baike.baidu.com/item/%E8%A7%86%E9%A2%91%E6%91%98%E8%A6%81

Comments