[发明专利]一种基于故事情节的视频摘要提取方法有效
申请号: | 201210358183.5 | 申请日: | 2012-09-24 |
公开(公告)号: | CN102902756A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 朱松豪;范莉莉;邹黎明;梁志伟 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 杨楠 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 故事情节 视频 摘要 提取 方法 | ||
技术领域
本发明涉及一种视频摘要提取方法,尤其涉及一种基于故事情节的视频摘要提取方法,属于图像处理技术领域。
背景技术
随着越来越多的影片资料出现在网络、个人电脑和数字设备上,要求采取有效且实用的方法组织和管理这些海量数据的愿望也越来越强烈。这些方法中,影片摘要方法不仅可获得对原始影片资料故事情节发展的简单描述,而且有利于观众观看整部影片前便能捕获电影主题。因此,电影摘要的目的是依据故事情节的发展,选择合适的片段构成影片摘要。然而,如何合理地选择电影片段及有效地将它们整合为摘要,仍是一个有待进一步研究的问题。
经对现有技术文献的检索发现,Ma等人(Y.Ma,X.Hua,L.Lu,and H Zhang.A generic framework of user attention model and its application in video summarization.In IEEE Transactions on Multimedia,7(5):907–919,2005)提出了用户注意模型的电影摘要,Li等人(K.Li,L.Guo,C.Faraco,and et al.Human-centered attention models for video summarization.In Proceedings of IEEE International Conference on Multimodal Interfaces,2010:27-30)提出了关于电影摘要的以人为本的注意模型,Lu等人(S.Lu,I.King,and M.Lyu.Video summarization by video structure analysis and graph optimization.In Proceedings of IEEE International Conference on Multimedia and Expo,2004:1959-1962)通过电影结构分析和图优化的方法实现电影摘要。这些电影摘要方法主要侧重于通过提取底层视听特征或中间层视听特征来生成摘要。然而从人们理解角度来说,由于底层视听特征与高层语义理解的差异,底层视听特征并不能很好地描述电影情节的进展。由电影制作理论可知,任何影片的本质都是讲述一个故事。因此,一个理想的电影摘要能清楚描述原始电影情节的进展。从观众的角度来看,一部电影之所以吸引他,是他想知道故事接下来的情节该如何发展。即,故事情节为一部影片的结构及精彩的内容,提供了有意义的描述。
发明内容
本发明所要解决的技术问题在于克服现有视频摘要方法的不足,提供一种基于故事情节的视频摘要提取方法,依据故事情节发展关系选择合适的摘要片段,既符合人们的逻辑思维,也有利于保证影片内容的完整性。
本发明的基于故事情节的视频摘要提取方法,包括以下步骤:
步骤A、对原始视频进行关键帧、镜头以及场景检测;
步骤B、根据视频故事情节从场景中检测出精彩场景;
步骤C、根据实际情况从精彩场景中选择摘要片段,并按照时序进行拼接,生成原始视频的摘要。
所述精彩场景的检测包括:
对话场景检测:首先依据人脸信息检测出含有交替出现的人脸镜头的场景,作为候选对话场景;然后,从候选对话场景中选出包含语音的场景,即为对话场景;
动作场景检测:一个场景同时满足下列三个条件时,则将该场景视为动作场景:该场景中每个镜头的帧数小于25,每个镜头的平均活跃强度超过200,且每个镜头的平均音频能量超过100;
悬疑场景检测:当一个场景同时满足下列三个条件时,则该场景为悬疑场景:该场景的平均光照强度小于50;该场景开始某几个镜头的音频能量包不超过5,且某两个连续镜头的音频能量包变化超过50;该场景开始几个镜头的活跃强度不超过5,且某两个连续镜头的活跃强度变化超过100。
进一步地,所述对话场景检测还包括情感对话场景的检测:分别提取各对话场景的平均的基音频率和短时的强度变化,选择两者均大于预设阈值的对话场景,即为情感对话场景。
进一步地,所述动作场景检测还包括:
枪战场景检测:选择橙、黄、红三种颜色特征均大于预设阈值的动作场景作为枪战场景;
打斗场景检测:选择包含吼叫声音频特征的动作场景作为打斗场景;
追逐场景检测:选择包含摩擦声和尖叫声音频特征的动作场景作为追逐场景。
优选地,所述步骤C具体包括以下各子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210358183.5/2.html,转载请声明来源钻瓜专利网。