[发明专利]短时特定音频检测模型生成与检测方法有效

申请号：	201510236568.8	申请日：	2015-05-11
公开（公告）号：	CN104992708B	公开（公告）日：	2018-07-24
发明（设计）人：	云晓春;颜永红;袁庆升;黄宇飞;任彦;周若华;黄文廷;邹学强;包秀国	申请（专利权）人：	国家计算机网络与信息安全管理中心;中国科学院声学研究所
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/14;G10L25/24;G10L21/02
代理公司：	北京方安思达知识产权代理有限公司 11472	代理人：	王宇杨;杨青
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种短时特定音频检测模型生成方法，包括：对训练语音数据进行特征提取；其中，所述训练语音数据包括非特定音频数据与特定音频数据；用训练语音数据的特征，进行通用背景模型的训练；由训练语音数据中某一类特定音频数据的特征，根据通用背景模型中自适应地得到该类特定音频数据的模型；重复这一操作，直至得到训练语音数据中所有类特定音频数据的模型。本发明还提供了一种短时特定音频检测方法，该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题，还可以一定程度的对输入数据的背景噪声进行抑制。
搜索关键词：	特定音频检测模型生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种短时特定音频检测模型生成方法，包括：步骤101、对训练语音数据进行特征提取；其中，所述训练语音数据包括非特定音频数据与特定音频数据；步骤102、用步骤101所得到的训练语音数据的特征，进行通用背景模型的训练；其中，所述通用背景模型为混合高斯模型，其表达式为：w_i表示的是每个高斯的权重，取值范围在0～1，且满足归一化条件：x表示训练语音片段的帧特征；λ表示高斯混合模型中所有参数的集合；p_i(x)表示每个单高斯模型的概率密度函数，其表达式为：D表示的是训练语音片段的帧特征的维度；∑i表示的是该高斯函数的协方差矩阵；μi表示的是该高斯函数的均值向量；步骤103、由训练语音数据中某一类特定音频数据的特征，根据步骤102所得到的通用背景模型中自适应地得到该类特定音频数据的模型；重复这一操作，直至得到训练语音数据中所有类特定音频数据的模型；在步骤103中，根据步骤102所得到的通用背景模型中自适应地得到一类特定音频数据的模型包括：步骤103‑1、首先根据训练的特定音频的特征向量计算每个语音帧在通用背景模型上的后验概率ni、一阶统计量Ei(x)以及二阶统计量Ei(x2)；具体计算过程如下列公式所示：其中，Pr(i|xt)表示输入音频x第t帧在通用背景模型第i个高斯的后验概率；xt表示输入音频x第t帧数据的特征；T表示的是输入音频的总帧数；i表示的是通用背景模型中第i个单高斯的编号；步骤103‑2、利用步骤103‑1计算得到的后验概率、一阶统计量以及二阶统计量，对通用背景模型的参数做自适应调整，得到特定音频模型的权重均值以及协方差自适应调整的公式如下：其中，和分别是方差、均值、权重调整系数；T表示的是该类特定音频训练数据总帧数，γ表示归一化参数，保证w_i表示的是通用背景模型中的第i个高斯模型的权重；表示通用背景模型中第i个高斯的协方差，表示的是自适应得到的该特定音频模型的第i个高斯的均值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院声学研究所，未经国家计算机网络与信息安全管理中心;中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510236568.8/，转载请声明来源钻瓜专利网。

上一篇：一种基于移动终端的局域网集群双工语音通信方法
下一篇：一种气动发声器及其控制系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]短时特定音频检测模型生成与检测方法有效

专利文献下载