[发明专利]短时特定音频检测模型生成与检测方法有效

专利信息
申请号: 201510236568.8 申请日: 2015-05-11
公开(公告)号: CN104992708B 公开(公告)日: 2018-07-24
发明(设计)人: 云晓春;颜永红;袁庆升;黄宇飞;任彦;周若华;黄文廷;邹学强;包秀国 申请(专利权)人: 国家计算机网络与信息安全管理中心;中国科学院声学研究所
主分类号: G10L15/06 分类号: G10L15/06;G10L15/14;G10L25/24;G10L21/02
代理公司: 北京方安思达知识产权代理有限公司 11472 代理人: 王宇杨;杨青
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种短时特定音频检测模型生成方法,包括:对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;用训练语音数据的特征,进行通用背景模型的训练;由训练语音数据中某一类特定音频数据的特征,根据通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型。本发明还提供了一种短时特定音频检测方法,该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题,还可以一定程度的对输入数据的背景噪声进行抑制。
搜索关键词: 特定 音频 检测 模型 生成 方法
【主权项】:
1.一种短时特定音频检测模型生成方法,包括:步骤101、对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;步骤102、用步骤101所得到的训练语音数据的特征,进行通用背景模型的训练;其中,所述通用背景模型为混合高斯模型,其表达式为:wi表示的是每个高斯的权重,取值范围在0~1,且满足归一化条件:x表示训练语音片段的帧特征;λ表示高斯混合模型中所有参数的集合;pi(x)表示每个单高斯模型的概率密度函数,其表达式为:D表示的是训练语音片段的帧特征的维度;∑i表示的是该高斯函数的协方差矩阵;μi表示的是该高斯函数的均值向量;步骤103、由训练语音数据中某一类特定音频数据的特征,根据步骤102所得到的通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型;在步骤103中,根据步骤102所得到的通用背景模型中自适应地得到一类特定音频数据的模型包括:步骤103‑1、首先根据训练的特定音频的特征向量计算每个语音帧在通用背景模型上的后验概率ni、一阶统计量Ei(x)以及二阶统计量Ei(x2);具体计算过程如下列公式所示:其中,Pr(i|xt)表示输入音频x第t帧在通用背景模型第i个高斯的后验概率;xt表示输入音频x第t帧数据的特征;T表示的是输入音频的总帧数;i表示的是通用背景模型中第i个单高斯的编号;步骤103‑2、利用步骤103‑1计算得到的后验概率、一阶统计量以及二阶统计量,对通用背景模型的参数做自适应调整,得到特定音频模型的权重均值以及协方差自适应调整的公式如下:其中,分别是方差、均值、权重调整系数;T表示的是该类特定音频训练数据总帧数,γ表示归一化参数,保证wi表示的是通用背景模型中的第i个高斯模型的权重;表示通用背景模型中第i个高斯的协方差,表示的是自适应得到的该特定音频模型的第i个高斯的均值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院声学研究所,未经国家计算机网络与信息安全管理中心;中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510236568.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top