[发明专利]一种多模态融合的采访镜头检测方法无效

申请号：	200710099725.0	申请日：	2007-05-29
公开（公告）号：	CN101316327A	公开（公告）日：	2008-12-03
发明（设计）人：	刘安安;李锦涛;张勇东;唐胜;宋砚	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	H04N5/262	分类号：	H04N5/262
代理公司：	北京泛华伟业知识产权代理有限公司	代理人：	高存秀
地址：	100080北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多模态融合采访镜头检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及视频编辑领域，特别涉及一种多模态融合的采访镜头检测方法。

背景技术

在电影、新闻等视频编辑领域中，大量的未经编辑的原始素材被用于视频制作。这些原始素材包括以下三个主要特征：

1、包含大量的静止场景和冗余片段；

2、原始素材的音频通常伴有噪声，并且很难通过自动语音识别技术实现音频到文本的转化；

3、.对于原始素材的文本介绍很少，很难通过文本信息实现视频内容分析。

因此，对未经人工编辑的原始视频的分析不同于现有对已编辑视频(如：电影，新闻，体育视频等)的研究，是个具有挑战性的新兴的研究领域。

通常，新闻视频原始素材包含采访镜头、人物活动镜头、自然风光镜头和一些冗余镜头。对于新闻视频制作而言，采访镜头最为重要。采访镜头通常记录的是记者和被采访人的对话或者被采访人的自述，一般具有人脸和人声信息。目前现有的人物识别方法多数是通过建立特定说话人模型进行人物检测，例如通过混合高斯模型(GMM)建立新闻主播模型，在参考文献1《Aaron E.Rosenberg，IvanMagrin-Chagnolleau，S.Parthasarathy et al，“Speaker Detection in Broadcast SpeechDatabases”，Proceeding of ICSLP’98，Sydney，Australia》中就有对如何利用混合高斯模型建立新闻主播模型的详细说明。但是对于未经编辑的原始视频而言，被采访者的多样性导致现有依靠特定说话人模型的方法不具有更广的通用性。

此外，现有视频分析方法多依据特定视频类型本身的特征，如电影分析可以依据电影编辑手法，体育视频分析可以依据体育视频拍摄规则等，而新闻原始素材没有特定的规律可遵循，这给原始新闻的视频分析带来很大困难。

发明内容

本发明的目的是克服现有的人物识别方法在检测未经编辑的新闻视频时，需要依赖特定说话人模型，通用性低的缺陷，从而提供一种融合视频和音频信息，具有较大通用性的采访镜头检测方法。

为了实现上述目的，本发明提供了一种多模态融合的采访镜头检测方法，按照以下步骤顺序执行：

步骤10)、输入未编辑的原始视频，对视频进行预处理，得到原始视频的视频流和音频流，以及视频流中的镜头、各个镜头的关键帧；

步骤20)、根据所述的音频流建立人声模型，并依赖所述的人声模型判断镜头是否为包含人声的镜头；

步骤30)、根据所述的视频流建立人脸模型，并依赖所述的人脸模型判断镜头是否为包含人脸的镜头；

步骤40)、根据步骤20)的人声检测结果和步骤30)的人脸检测结果建立采访模型，并在所述的采访模型中融合人声检测结果和人脸检测结果，根据融合的结果判断镜头是否为采访镜头，如果一个镜头中同时包含人声和人脸信息，则所述镜头为采访镜头。

上述技术方案中，在所述的步骤10)中，所述对输入的原始视频的预处理具体包括以下步骤：

步骤11)、将输入视频分为视频流和音频流；

步骤12)、对所述视频流进行镜头边界检测和关键帧提取。

上述技术方案中，在所述的步骤20)中，所述人声模型的建立具体包括以下步骤：