[发明专利]一种多模态融合的采访镜头检测方法无效
申请号: | 200710099725.0 | 申请日: | 2007-05-29 |
公开(公告)号: | CN101316327A | 公开(公告)日: | 2008-12-03 |
发明(设计)人: | 刘安安;李锦涛;张勇东;唐胜;宋砚 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04N5/262 | 分类号: | H04N5/262 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 高存秀 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 融合 采访 镜头 检测 方法 | ||
技术领域
本发明涉及视频编辑领域,特别涉及一种多模态融合的采访镜头检测方法。
背景技术
在电影、新闻等视频编辑领域中,大量的未经编辑的原始素材被用于视频制作。这些原始素材包括以下三个主要特征:
1、包含大量的静止场景和冗余片段;
2、原始素材的音频通常伴有噪声,并且很难通过自动语音识别技术实现音频到文本的转化;
3、.对于原始素材的文本介绍很少,很难通过文本信息实现视频内容分析。
因此,对未经人工编辑的原始视频的分析不同于现有对已编辑视频(如:电影,新闻,体育视频等)的研究,是个具有挑战性的新兴的研究领域。
通常,新闻视频原始素材包含采访镜头、人物活动镜头、自然风光镜头和一些冗余镜头。对于新闻视频制作而言,采访镜头最为重要。采访镜头通常记录的是记者和被采访人的对话或者被采访人的自述,一般具有人脸和人声信息。目前现有的人物识别方法多数是通过建立特定说话人模型进行人物检测,例如通过混合高斯模型(GMM)建立新闻主播模型,在参考文献1《Aaron E.Rosenberg,IvanMagrin-Chagnolleau,S.Parthasarathy et al,“Speaker Detection in Broadcast SpeechDatabases”,Proceeding of ICSLP’98,Sydney,Australia》中就有对如何利用混合高斯模型建立新闻主播模型的详细说明。但是对于未经编辑的原始视频而言,被采访者的多样性导致现有依靠特定说话人模型的方法不具有更广的通用性。
此外,现有视频分析方法多依据特定视频类型本身的特征,如电影分析可以依据电影编辑手法,体育视频分析可以依据体育视频拍摄规则等,而新闻原始素材没有特定的规律可遵循,这给原始新闻的视频分析带来很大困难。
发明内容
本发明的目的是克服现有的人物识别方法在检测未经编辑的新闻视频时,需要依赖特定说话人模型,通用性低的缺陷,从而提供一种融合视频和音频信息,具有较大通用性的采访镜头检测方法。
为了实现上述目的,本发明提供了一种多模态融合的采访镜头检测方法,按照以下步骤顺序执行:
步骤10)、输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;
步骤20)、根据所述的音频流建立人声模型,并依赖所述的人声模型判断镜头是否为包含人声的镜头;
步骤30)、根据所述的视频流建立人脸模型,并依赖所述的人脸模型判断镜头是否为包含人脸的镜头;
步骤40)、根据步骤20)的人声检测结果和步骤30)的人脸检测结果建立采访模型,并在所述的采访模型中融合人声检测结果和人脸检测结果,根据融合的结果判断镜头是否为采访镜头,如果一个镜头中同时包含人声和人脸信息,则所述镜头为采访镜头。
上述技术方案中,在所述的步骤10)中,所述对输入的原始视频的预处理具体包括以下步骤:
步骤11)、将输入视频分为视频流和音频流;
步骤12)、对所述视频流进行镜头边界检测和关键帧提取。
上述技术方案中,在所述的步骤20)中,所述人声模型的建立具体包括以下步骤:
步骤21)、从音频流中提取基于帧的短时音频特征;
步骤22)、根据音频内容,将各音频短时帧对应的音频特征标注为人声类或非人声类,建立训练数据集和测试数据集,并将未编辑原始视频中的音频流数据添加到所述训练数据集或测试数据集;
步骤23)、通过支持向量机分类器和所述训练数据集建立人声模型;
步骤24)、通过有限状态机对所述测试数据集中音频短时帧的分类结果做平滑,得到音频短时帧类型的检测结果;
步骤25)、根据所述检测结果,计算一个镜头中人声类型的音频短时帧占总帧数的比例,并判断所得到的比例是否大于第三阈值,如果大于,则所在镜头为包含人声的镜头。
在所述的步骤21)中,所述的短时音频特征为短时音频能量、短时过零率、美尔倒谱系数、子带能量和子带能量比。
在所述的步骤25)中,所述的第三阈值为0.7。
上述技术方案中,所述的步骤30)具体包括以下步骤:
步骤31)、建立人脸模型,对所述步骤10)所得到的各镜头关键帧是否包含人脸概念进行判断,并记录包含人脸概念的关键帧;
步骤32)、计算一个镜头中包含人脸概念的关键帧占该镜头中总关键帧的比例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710099725.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:法式气嘴专用的充气嘴
- 下一篇:在线测定样品中生化需氧量的装置及方法