[发明专利]基于Bag of Words的视频匹配方法在审

申请号：	201210578139.5	申请日：	2012-12-27
公开（公告）号：	CN103902569A	公开（公告）日：	2014-07-02
发明（设计）人：	屈景春;吴军	申请（专利权）人：	重庆凯泽科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/46
代理公司：	暂无信息	代理人：	暂无信息
地址：	400050 重庆市九***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 bag of words 视频匹配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于Bag of Words的视频匹配方法。

背景技术

随着电视节目的积累和网络视频的普及，视频数据库的规模和容量正在迅速增加，于是自动地对大量的并且正在不断增加的视频进行分析和理解成为一项越来越紧迫的任务。与此同时，如何组织视频数据并实现快速检索也成为越来越重要的研究课题。

对于视频检索，现有通用的方法主要是通过手动的方法对视频中的内容进行标注，然后按照这种标注对视频进行组织和索引。这种方法的缺点是在大量甚至海量的视频样本空间中，使用手工标注是一件费时费力的工作，同时使用若干标注词或者文字段落很难将视频中全部的内容都表述清楚。所以从发展的角度来看，对于海量的视频存储组织与索引应当更多地从视频的内容出发，在视频库中找到与目标视频最匹配的视频。

大样本空间中的视频匹配技术是根据用户提交的待查询视频，在视频数据库中查找与其内容一致的视频片段。比如对一个包含多个广告的视频序列，在视频数据库中进行查找与其内容一致的视频片段，根据匹配查找的结果就能得到对应广告视频的具体信息，并且能够确定该广告出现在该视频序列中的位置。

视频匹配技术与传统的基于内容的视频检索(content-based video retrieval)存在许多相似之处。基于内容的视频检索，是根据用户提交的视频实例，在视频数据库中查找与其相似的视频片断，其基本思想是提取视频片段的特征并计算与视频数据库中各视频片断的相似度，通过对相似度从高到底排列得到检索结果。虽然视频检索和视频匹配的目标都是为了实现目标视频的一到多的查询，但两者仍存在显著的差异。视频检索更注重相似度度量方面的研究，关心如何快速查找出与查询相关的视频，视频匹配更注重视频数据的建模和索引，关心如何快速查找出查询视频中与视频样本一致的视频片段。

由于视频的内在特性，顺序扫描并计算视频片段相似性的方法在视频匹配问题中效率低下。许多研究者提出了不同的视频建模方法以提高相似性查询的效率。文献[1]采用随机采样的办法，将视频描述为若干关键帧ViSig(Video Signature)的集合，以达到压缩视频索引提高查询速度的目的。但以帧为单位建立索引，忽略了视频序列中各帧的时间顺序，影响了查询精度。文献[2]提出了一种介于镜头和帧之间的视频表示形式，并以此为基本单位提取全局特征，通过K均值聚类的方法加速了高维索引查询过程，但查询精度易受聚类效果影响。文献[3]在文献[2]的基础上利用VA-File (vector- approximation file)组织视频数据库，通过数据压缩和近似计算提高查询效率。这些方法或者从视频帧或者从视频片段中提取高维的特征向量以实现视频的相似性计算，但由于要同时考虑全局和局部的特征，即使使用了不同的降维方法，高维特征的索引和相似性计算的代价仍然是视频检索和匹配系统的一大瓶颈。

发明内容

本发明要解决的技术问题是：为了克服上述中存在的问题，提供一种基于Bag of Words的视频匹配方法。

本发明解决其技术问题所采用的技术方案是：一种基于Bag of Words的视频匹配方法，其特征是具体步骤如下：

（a）提取图像的局部特征；

（b）量化图像的局部特征，构建视觉关键词辞典；

（c）将图像表示为由若干视觉关键词组成的集合。

（a）中提取图像的局部特征的具体步骤如下：步骤1：将一个镜头内部的内容分解为复数个子镜头；

步骤2：对每个子镜头内每一帧图像进行特征抽取：（1）图像的统计特征；（2）局部区域的兴趣点描述子；

步骤3：选择64维亮度直方图作为图像的统计特征；选择计算8*8=64维SIFT描述子作为兴趣点描述子；将每帧图像分为4×4=16个区域；

步骤4：利用在线滑动窗口的方法提取子镜头，其具体算法步骤如下：

（1）利用子镜头依次进行输入视频V，提取当前帧图像T_m，提取帧特征F_m，当前活动子镜头的特征S_n；

（2）计算S_n和F_m之间的距离，。