[发明专利]短时特定音频检测模型生成与检测方法有效

申请号：	201510236568.8	申请日：	2015-05-11
公开（公告）号：	CN104992708B	公开（公告）日：	2018-07-24
发明（设计）人：	云晓春;颜永红;袁庆升;黄宇飞;任彦;周若华;黄文廷;邹学强;包秀国	申请（专利权）人：	国家计算机网络与信息安全管理中心;中国科学院声学研究所
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/14;G10L25/24;G10L21/02
代理公司：	北京方安思达知识产权代理有限公司 11472	代理人：	王宇杨;杨青
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特定音频检测模型生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种短时特定音频检测模型生成方法，包括：对训练语音数据进行特征提取；其中，所述训练语音数据包括非特定音频数据与特定音频数据；用训练语音数据的特征，进行通用背景模型的训练；由训练语音数据中某一类特定音频数据的特征，根据通用背景模型中自适应地得到该类特定音频数据的模型；重复这一操作，直至得到训练语音数据中所有类特定音频数据的模型。本发明还提供了一种短时特定音频检测方法，该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题，还可以一定程度的对输入数据的背景噪声进行抑制。

技术领域

本发明涉及短时特定音频检测的方法，更具体地说，本发明涉及利用混合高斯模型进行短时特定音频的检测。

背景技术

在许多领域，短时特定音频都有着重要的作用，尤其在安全领域，在一些特定的情况下，我们需要检测出某一类的短时特定音频以方便我们对于一些紧急的事件进行及时的处理。例如，在公共场合，我们需要监管公共安全以及检测意外事故的发生，像突然的尖叫声、意外的爆炸声或者枪击声，我们必须及时检测到这些短时特定音频以方便及时处理这些意外情况。除此之外，在一些相对重要的场所，短时特定音频的的检测还可以用于异常声音检测，可以很好的起着预警的作用。

目前短时特定音频检测方法遇到的问题还是很多的，第一，因为短时特定音频发生很快而且事件的发生时间很短暂，所以如何利用短时音频中的信息很重要；第二，短时特定音频发生的频率不是很高，所以不得不面对训练数据不充足的问题；第三，由于使用的场景经常有复杂的背景噪声，所以很好地抑制背景噪声也成为短时特定音频检测也是一个重要的问题。

发明内容

本发明的目的在于克服已有的短时特定音频检测方法所存在的训练数据不足、无法抑制背景噪声的缺陷，从而提供一种基于混合高斯模型的短时特定音频模型生成与检测方法。

本发明还提供了一种短时特定音频检测模型生成方法，包括：

步骤101、对训练语音数据进行特征提取；其中，所述训练语音数据包括非特定音频数据与特定音频数据；

步骤102、用步骤101所得到的训练语音数据的特征，进行通用背景模型的训练；其中，所述通用背景模型为混合高斯模型，其表达式为：

wi表示的是每个高斯的权重，取值范围在0～1，且满足归一化条件：x表示训练语音片段的帧特征；λ表示高斯混合模型中所有参数的集合；p_i(x)表示每个单高斯模型的概率密度函数，其表达式为：

D表示的是训练语音片段的帧特征的维度；Σi表示的是该高斯函数的协方差矩阵；μ_i表示的是该高斯函数的均值向量；

步骤103、由训练语音数据中某一类特定音频数据的特征，根据步骤102所得到的通用背景模型中自适应地得到该类特定音频数据的模型；重复这一操作，直至得到训练语音数据中所有类特定音频数据的模型。

上述技术方案中，在步骤101中，对训练语音数据所提取的特征为梅尔倒谱系数。

上述技术方案中，在步骤102中，进行通用背景模型的训练包括利用期望最大化的方法对通用背景模型进行参数估计，所要估计的参数包括三类：高斯权重w、高斯方差δ以及高斯均值μ，其中w是每个高斯权重w_i的集合，δ是每个高斯方差δ_i的集合，μ是每个高斯均值μ_i的集合，i表示每个单高斯模型的编号；具体包括：

步骤102-1、对第k个高斯权重w_k的更新：

第k个高斯权重w_k更新过程如下列公式所示：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院声学研究所，未经国家计算机网络与信息安全管理中心;中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510236568.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于移动终端的局域网集群双工语音通信方法
下一篇：一种气动发声器及其控制系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]短时特定音频检测模型生成与检测方法有效

专利文献下载