[发明专利]一种音频情感驱动下的体育视频精彩事件提取方法有效
申请号: | 201410806622.3 | 申请日: | 2014-12-23 |
公开(公告)号: | CN104463139B | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 余春艳;翁子林;苏晨涵;陈昭炯 | 申请(专利权)人: | 福州大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350002 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 情感 驱动 体育 视频 精彩 事件 检测 方法 | ||
技术领域
本发明涉及视频图像处理领域,特别是一种音频情感驱动下的体育视频精彩事件提取方法。
背景技术
体育视频是众多视频类型中非常重要的一种,深受许多视频观众尤其是体育视频爱好者的喜爱。随着高清数字电视的不断普及与推广,每天不同的电视频道都播着大量的体育视频节目。对于体育视频爱好者而言,把如此多的体育视频节目都完整浏览一遍是不现实的。在这种情况下,视频精彩事件提取方法能够有效地筛选出视频中的精彩片段,为用户节省大量的宝贵时间。因此,开发出一种有效的视频精彩片段提取方法是十分有必要的。
视频精彩片段提取技术能够帮助用户快速获取冗长的视频中关键的片段,是视频检索与视频摘要的重要技术支撑。由于视频精彩片段是面向用户的,因此如何充分考虑用户情感变化以及视频多媒体文件中的情感语义变化情况,从情感语义上更好地驱动视频精彩片段提取成为目前研究的重要问题之一。
视频多媒体文件一般包含视觉模态数据和伴生的听觉模态数据。视觉模态中的镜头缩放、镜头变换、运动物体等以及听觉模态中的背景音乐、对话独白、鼓掌呐喊等都向视频观看者传达着不同类型不同程度的情感语义信息。因此,两种模态数据都可以用来感知情感语义。
目前,已经有较多技术对视觉模态数据的情感语义进行感知,其目标主要是通过分析颜色、特定物体等底层视觉模态信息最终提取出情感语义。例如中国专利CN1991864A所公开的基于球门的足球视频精彩事件检测方法中将球门的出现看做关键语义事件的开始,从而定位出精彩事件。又如,文献“Edwards J,Jackson HJ,PattisonP E.Emotionrecognitionviafacial expression and affective prosody in schizophrenia:a methodological review[J].Clinical psychology review,2002, 22(6):789-832.”对视频中人脸部不同位置的肌肉块进行分析,得到当前的表情所属的类别,进而分析出当前人物的心情以及事件的紧张程度。然而,底层视觉特征与高层情感之间并非强耦合关系,本质上两者之间存在语义鸿沟。所以,到目前为止,仅依赖底层视觉特征挖掘情感语义信息仍然是一个非常困难的问题。
听觉模态数据同样蕴含着丰富的情感语义。一方面,听觉模态中情感语义可以表征视频中事件的精彩程度,类似激动等类型的高层情感,通常伴随着视频精彩片段而出现。在体育视频中,比赛现场的观众以及解说员的反应往往跟着比赛中事件的发展而不断变化。精彩事件发生,他们往往较激动,表现为观众的欢呼声、鼓掌声以及解说员的激动解说,而在正常事件中他们则表现较为平静。另一方面,与视觉模态数据相比,听觉模态数据的底层物理特征与高层情感语义间的耦合关系比较紧密。例如,体育视频中观众的欢呼声一般具有较高的短时能量和较低的过零率,而欢呼声代表着观众处于较为激动的状态。这种相对紧密的耦合关系在一定程度上有助于缩小语义鸿沟。由此可见,音频情感语义可以有效地辅助体育视频精彩片段的提取。
发明内容
本发明的目的在于提供一种音频情感驱动下的体育视频精彩事件检测方法,使得在音频情感语义指导下所提取的体育视频精彩片段更加有效更符合用户的需要。
为实现上述目的,本发明的技术方案是:一种音频情感驱动下的体育视频精彩事件检测方法,包括如下步骤:
步骤S1:提取出源视频文件的音轨并将音轨分割成等长的基本单元;
步骤S2:基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型,得到各基本单元的音频情感感知结果,并运用基于规则的平滑技术进行平滑处理,得到音频高层情感语义波动序列;
步骤S3:在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出视频精彩事件。
在本发明的实施例中,步骤S1中,所述的基本单元的长度均为1s。
在本发明的实施例中,步骤S1中,所述的音轨统一格式化为wav格式、单声道,采样频率为22.05khz。
在本发明的实施例中,步骤S2中,所述的两阶段的音频情感感知技术按照以下方案实现:
步骤S21:提取并分析音频基本单元的底层音频特征,其中,底层音频特征包括:过零率、短时平均能量、频谱流量、音调、Mel频率倒谱系数、静音比例、低频能量比、高过量比率、带宽;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410806622.3/2.html,转载请声明来源钻瓜专利网。