[发明专利]一种自动检测音频模板并对视频分章的方法有效
申请号: | 201010567970.1 | 申请日: | 2010-12-01 |
公开(公告)号: | CN102024033A | 公开(公告)日: | 2011-04-20 |
发明(设计)人: | 董远;王乐滋 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动检测 音频 模板 视频 方法 | ||
所属技术领域
本发明属于对视频节目的音频内容进行复制检测和对节目进行自动分章的领域,具体涉及一种自动检测音频模板并对视频分章的方法。
背景技术
视频节目进行分章是指把数据量大、持续时间长的视频节目的特定片段(如广告、节目特效)标记出来从而方便用户浏览。
目前,传统的方法是对视频帧提取特征并进行处理,是建立在图像基础上的。常见的有台标检测和视频识别。
视频识别的方法确实能利用数据库中模板的信息做到快速而且准确地定位和标记,但是目前该方法的数据库中模板由人为加入,数据库内信息比较固定,数据库中没有的数据将无法检测,另外,有些节目片段具有相同的音频内容当时图像内容却不一样,而且持续的时间较长,如新闻内容回顾部分。对于这样节目片段,常见的基于图像的检测方法就不适用了。对于台标检测来说,越来越多的视频在应被判为不同章节的部分使用同样的台标(如广告跟节目),这样导致台标检测方法失效。
上述基于视频的方法还存在计算量大,检测速度慢的问题。而目前,基于音频的视频分章方法都属于有模板的检测,即人为在数据库中预先定义好模板再对测试音频数据作比对。这些方法的缺陷同样是受限于数据库中模板为“静态”的,数据库中没有的数据将无法检测。
发明内容
本发明为了克服基于视频检测和基于模板的音频检测这两类方法的不足,提出了一种自动检测音频模板并对视频分章的方法,其能够在很大数据量的音频文件中快速、鲁棒地学习出音频模板,并利用模板对新来的视频进行准确的分章。
本发明提供了自动检测音频模板并对视频分章的方法,其中包括模板学习阶段和视频分章阶段。
模板学习阶段包括以下步骤:
1)将过去一周的音频数据作为训练样本,将7天(7*24小时)5513HZ的音频数据进行预处理;整个7乘以24小时的音频被分割成1小时为单位的若干音频文件;利用音频的KULLBACK-LEIBLER距离,将1小时的文件进行切变点分割,得到零碎的音频片断;防止片断分割得过碎,将这些音频片断进行聚类,判断每个片段的时间长度,将时长小于3秒的片断与相邻的时长较短的片断拼接;然后对于5513HZ的音频文件,以窗长度0.37s,40ms为一帧,判断每帧是否为静音帧,每一帧的能量为eFr,能量阈值TE,根据公式:
其中,W为窗内采样点的数量,n为整个文件的帧数,xi为每一个采样点的能量值,α,β为设定参数,
如果eFr≤TE,则该帧被判断为静音帧;若静音帧占了音频片段一半以上,该片段将被定义为静音片段。
2)窗长度0.37秒,40ms为步进对5513HZ的音频文件进行离散傅立叶变换,并根据美尔频率公式
Mel(f)=2595lg(1+f/700)
将实际频带中20HZ---3000HZ部分转化为美尔频带并等分成17个字频带;计算相邻两个频带之间的能量差;若差值大于等于设定阈值,输出为1,反之为0;提取出一个16Bit的二进制字符串作为每一帧的特征值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010567970.1/2.html,转载请声明来源钻瓜专利网。