[发明专利]一种混合音视频检索方法及系统在审

申请号：	201410668366.6	申请日：	2014-11-21
公开（公告）号：	CN104391924A	公开（公告）日：	2015-03-04
发明（设计）人：	马展;田海	申请（专利权）人：	南京讯思雅信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	朱小兵
地址：	211100 江苏省南京市江宁***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种混合视频检索方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种视频文件检索技术，尤其涉及一种混合音视频的检索方法和系统。

背景技术

日前，70%乃至更多的网络传输已被海量的多媒体数据，特别是视频数据占据。而这样的趋势还在继续。这样的多媒体数据包括视频，音频，文字，以及它们的聚合体。对于这样海量的数据，如何行之有效的检索是一件非常挑战的工作。

目前的检索系统主要技术包括：

纯文字关键字检索：该技术目前最为成熟，通过匹配检索的关键字获取相关信息，已被广泛商用，例如Google, Bing, Baidu等。主要优点是快速，技术成熟，但是对于图形图像需要定义统一的规则描述其内容，难度较大。

纯图像检索：该技术通过模式识别将上传图像作为特征矢量寻找数据库中匹配或者近似的图像。Google或者Baidu已经集成了相关的技术给用户进行图片匹配检索。此外，国际标准组织ISO/IEC针对图片检索的进行了图片特征矢量标准化工作，以期通过统一的格式来传输检索图片特征。主要优点是“所见即所得”，无需再通过文字进一步描述，但是检索效率和准确率都不及文字检索。

申请号为200810062073.8的专利申请公开了一种基于音频内容检索的多媒体资源检索方法。包括如下步骤：1)预处理服务器将视频和音频转化为标准的待识别语音；2)语音识别服务器将训练语料训练成声学模型，并将待识别语音和声学模型匹配得到语意文本索引；3)索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果。该发明利用音频中关键词检出技术，获得了音视频资源内在的语意信息，对文本化的语意信息进行索引，提供了全面可靠的音视频资源信息索引，可以让检索系统更准确的匹配到多媒体资源，并且定位到检索词在音视频中出现的精确位置。

申请号为201110073050.9的专利申请公开了一种多媒体信息检索的方法，首先采集音视频数据，获取音频数据的Lattice结果，根据时间点信息和匹配似然值打分信息，获得置信度打分信息，采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果，建立前向索引和后向索引，输入待检索文本和时间点信息，进入后向索引库进行查询，获得一组前向索引库的入口位置以及对应的置信度打分信息，分别进行精确匹配，根据入口个数和置信度打分信息选择置信度阈值，返回候选位置列表以及对应的音视频位置处。采用了该发明的技术方案，能够对多媒体信息进行更彻底的标注，能够更加精细、快捷地索引和定位到感兴趣的位置。

申请号为201110073048.1的专利申请公开了一种多媒体信息模糊检索方法，首先采集音视频数据，获取音频数据的Lattice结果，根据时间点信息和匹配似然值打分信息，获得置信度打分信息，采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果，建立字词级和音素级索引库，生成原始信息库，输入待检索文本和时间点信息，转成音素序列，并利用音素混淆矩阵，获得类似的音素序列，拆分成多个音素组合，分别进入后向索引库进行查询，再进入原始信息库进行精确匹配，返回候选位置。采用该发明的技术方案，能够最大限度地增加检索到的数量，并在保证系统性能的前提下，极大提高检索速度。

但是上述方案的流程比较复杂，需要消耗较多的系统资源。除去上述方法，现有的流行的检索系统中还未有结合音频特征进行检索的文献公开。

发明内容

本发明所要解决的技术问题是针对背景技术的缺陷，从多媒体数据的内在联系出发，通过分析视频，图像，音频和相关文字的特征，提出一种高效精确的多媒体检索方法。

本发明为解决上述技术问题采用以下技术方案：

一种混合音视频检索方法，包括以下步骤：

步骤（1）、将任意视频数据分解成视频序列和音频序列；所述视频序列和音频序列中均包含音视频同步时间轴信息；

步骤（2）、针对视频序列，通过场景分析提取有限场景帧；

步骤（3）、在有限场景帧上提取特征点组成表征该场景帧的特征矢量；

步骤（4）、针对音频序列，通过使用音频转文字的算法，将其转换成和音频时间轴匹配的文字串；

步骤（5）、根据音视频同步时间轴信息将步骤（3）所述场景帧的特征矢量和步骤（4）所述文字串匹配，作为元数据附加在原始视频数据头文件，开放给上层接口检索。

作为本发明的一种混合音视频检索方法进一步的优化方案，步骤（2）中，有限场景帧是使用临近帧的像素误差分布进行场景分析提取获得。

作为本发明的一种混合音视频检索方法进一步的优化方案，步骤（3）中，特征点是使用SIFT算法提取获得。