[发明专利]短时特定音频检测模型生成与检测方法有效
申请号: | 201510236568.8 | 申请日: | 2015-05-11 |
公开(公告)号: | CN104992708B | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 云晓春;颜永红;袁庆升;黄宇飞;任彦;周若华;黄文廷;邹学强;包秀国 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院声学研究所 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L25/24;G10L21/02 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;杨青 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特定 音频 检测 模型 生成 方法 | ||
本发明涉及一种短时特定音频检测模型生成方法,包括:对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;用训练语音数据的特征,进行通用背景模型的训练;由训练语音数据中某一类特定音频数据的特征,根据通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型。本发明还提供了一种短时特定音频检测方法,该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题,还可以一定程度的对输入数据的背景噪声进行抑制。
技术领域
本发明涉及短时特定音频检测的方法,更具体地说,本发明涉及利用混合高斯模型进行短时特定音频的检测。
背景技术
在许多领域,短时特定音频都有着重要的作用,尤其在安全领域,在一些特定的情况下,我们需要检测出某一类的短时特定音频以方便我们对于一些紧急的事件进行及时的处理。例如,在公共场合,我们需要监管公共安全以及检测意外事故的发生,像突然的尖叫声、意外的爆炸声或者枪击声,我们必须及时检测到这些短时特定音频以方便及时处理这些意外情况。除此之外,在一些相对重要的场所,短时特定音频的的检测还可以用于异常声音检测,可以很好的起着预警的作用。
目前短时特定音频检测方法遇到的问题还是很多的,第一,因为短时特定音频发生很快而且事件的发生时间很短暂,所以如何利用短时音频中的信息很重要;第二,短时特定音频发生的频率不是很高,所以不得不面对训练数据不充足的问题;第三,由于使用的场景经常有复杂的背景噪声,所以很好地抑制背景噪声也成为短时特定音频检测也是一个重要的问题。
发明内容
本发明的目的在于克服已有的短时特定音频检测方法所存在的训练数据不足、无法抑制背景噪声的缺陷,从而提供一种基于混合高斯模型的短时特定音频模型生成与检测方法。
本发明还提供了一种短时特定音频检测模型生成方法,包括:
步骤101、对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;
步骤102、用步骤101所得到的训练语音数据的特征,进行通用背景模型的训练;其中,所述通用背景模型为混合高斯模型,其表达式为:
wi表示的是每个高斯的权重,取值范围在0~1,且满足归一化条件:x表示训练语音片段的帧特征;λ表示高斯混合模型中所有参数的集合;pi(x)表示每个单高斯模型的概率密度函数,其表达式为:
D表示的是训练语音片段的帧特征的维度;Σi表示的是该高斯函数的协方差矩阵;μi表示的是该高斯函数的均值向量;
步骤103、由训练语音数据中某一类特定音频数据的特征,根据步骤102所得到的通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型。
上述技术方案中,在步骤101中,对训练语音数据所提取的特征为梅尔倒谱系数。
上述技术方案中,在步骤102中,进行通用背景模型的训练包括利用期望最大化的方法对通用背景模型进行参数估计,所要估计的参数包括三类:高斯权重w、高斯方差δ以及高斯均值μ,其中w是每个高斯权重wi的集合,δ是每个高斯方差δi的集合,μ是每个高斯均值μi的集合,i表示每个单高斯模型的编号;具体包括:
步骤102-1、对第k个高斯权重wk的更新:
第k个高斯权重wk更新过程如下列公式所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院声学研究所,未经国家计算机网络与信息安全管理中心;中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510236568.8/2.html,转载请声明来源钻瓜专利网。