[发明专利]一种音频情感驱动下的体育视频精彩事件提取方法有效

专利信息
申请号: 201410806622.3 申请日: 2014-12-23
公开(公告)号: CN104463139B 公开(公告)日: 2017-09-15
发明(设计)人: 余春艳;翁子林;苏晨涵;陈昭炯 申请(专利权)人: 福州大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62
代理公司: 福州元创专利商标代理有限公司35100 代理人: 蔡学俊
地址: 350002 福*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种音频情感的驱动下的体育视频精彩事件检测方法。本发明方法充分利用视频文件中的音频信息,首先利用两阶段的音频情感感知技术感知出音频中的高层情感语义;在第一阶段中构建了基于分层二叉树支持向量机的音频分类器,从底层音频特征中识别出中层情感类型;第二阶段中利用音频情感映射技术从中层音频类型中映射得到高层情感语义类型,得到高层情感语义后顺利挖掘到音频流中的高层情感语义波动序列;最终在音频情感波动序列的基础上结合静音以及激动情感语义定位出精彩事件。本发明的方法简单,利用音频情感从语义上驱动体育视频精彩事件的检测,所提取的体育视频精彩事件对于用户而言更加精彩更加有效。
搜索关键词: 一种 音频 情感 驱动 体育 视频 精彩 事件 检测 方法
【主权项】:
一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:包括如下步骤,步骤S1:提取出源视频文件的音轨并将音轨分割成等长的基本单元;步骤S2:基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型,得到音频情感感知结果,并运用基于规则的平滑技术进行平滑处理,得到音频高层情感语义波动序列;步骤S3:在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出视频精彩事件;步骤S2中,所述的两阶段的音频情感感知技术按照以下方案实现:步骤S21:提取并分析音频基本单元的底层音频特征,其中,底层音频特征包括:过零率、短时平均能量、频谱流量、音调、Mel频率倒谱系数、静音比例、低频能量比、高过量比率、带宽;步骤S22:基于分层二叉树支持向量机构建一个音频分类器,利用该分类器从底层音频特征中识别出中层音频类型,其中,中层音频类型包括:欢呼声、鼓掌声、精彩解说声、其他解说、静音及其他共计六种类型;步骤S23:通过语义映射技术将中层音频情感类型映射为高层情感语义类型,从而感知出底层音频特征中蕴含的高层情感语义类型,其中,高层情感语义类型包括:激动、平缓共计两种类型;步骤S22中,所述的基于分层二叉树支持向量机的音频分类器的构建按照以下方案实现:构建一棵最优完全偏二叉树识别出欢呼声、鼓掌声、精彩解说声、其他解说、静音及其他这六种中层音频类型,且所述完全偏二叉树的构建过程中取中层音频类型作为叶子结点;所述的完全偏二叉树构建过程中每一层叶子结点的确定按以下方案实现:步骤S221:设M代表中层音频类型集合,即M={欢呼声,鼓掌声,精彩解说声,其他解说,静音,其他};对于M中的任一类Mk,计算Mk与其他剩余类Mj之间的欧式距离此时,Mk是正类,Mj是负类;可表示为:其中,dkj表示Mk与Mj之间的欧式距离,用Mk与Mj之间的中心距离表示;步骤S222:计算负类中所有不同类之间的平均欧式距离,也即:步骤S223:取上述两个距离及之和作为Mk类的排斥距离D,即计算M中每个类的排斥距离,取排斥距离最大的类作为当前层的叶子结点,并且将该类从M中剔除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410806622.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top