[发明专利]一种利用神经网络的语音活性检测方法有效
申请号: | 202110979720.7 | 申请日: | 2021-08-25 |
公开(公告)号: | CN113421595B | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 万东琴;胡岸;刘文通;曾帆 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L25/81 | 分类号: | G10L25/81;G10L25/84;G10L25/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 神经网络 语音 活性 检测 方法 | ||
一种利用神经网络的语音活性检测方法,包括模型训练过程和语音活性检测过程;所述模型训练过程包括以下步骤:S1.对用于训练的纯净语音确定端点检测标签;S2.对纯净语音进行随机加噪,构造训练集;S3.逐帧处理,提取训练集中的多阶多分辨率耳蜗图特征向量;S4.构建多层门控制循环单元网络,利用训练集对其进行训练,得到多层门控制循环单元成熟模型,利用成熟模型进行语音活性检测。本发明利用神经网络良好的分类性能,提取带噪语音的特定特征,并通过预先训练好的神经网络模型,对语音以及噪声进行初步分类并求得一个语音存在概率;通过状态机对获得的语音存在概率进行后处理,从而得到一个平滑且相对准确的语音活性检测标识。
技术领域
本发明属于语音识别技术领域,具体涉及一种利用神经网络的语音活性检测方法。
背景技术
在语音通话或者语音识别领域,语音活性检测技术可以有效的区分出语音片段和非语音片段,因此可以有效的降低需要处理的数据量。在识别中,只需要把语音活性段的数据进行识别;而通话领域中可以有效控制需要去传输的数据量。语音活性检测面临的最大问题就是,传统方法在非平稳噪声以及小噪声的环境下有较好的检测效果,而在大噪声以及非平稳噪声,比如音乐环境下,则无法很好的区分。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种利用神经网络的语音活性检测方法。
本发明所述利用神经网络的语音活性检测方法,包括模型训练过程和语音活性检测过程;
所述模型训练过程包括以下步骤:
S1.对用于训练的纯净语音确定端点检测标签;
S2.对纯净语音进行随机加噪,构造训练集;
S3.逐帧处理,提取训练集中每一帧语音的多阶多分辨率耳蜗图特征向量;
S4.构建多层门控制循环单元网络,利用训练集对其进行训练,得到多层门控制循环单元成熟模型;
语音活性检测过程:
S5.提取测试语音每一帧的多阶多分辨率耳蜗图特征向量;
S6.经过神经网络的前向网络,对每一帧给出一个语音存在概率;
S7.利用状态机对语音存在概率值进行后处理,输出一个平滑且稳定的语音活性检测标识;
所述后处理为将离散的语音存在概率值归整为仅采用0和1表示;
步骤S7中,利用状态机对语音存在概率值进行后处理的具体方法为:
设置状态机状态0为初始态,1为确定态,2为退出态;
设置启动数组、结束数组,设置存在门限值;
在状态机状态为确定态下时,
当语音存在概率存在门限值时,启动数组对应元素的值置为1,同时对启动数组元素序号加1;直到元素序号超过启动数组长度后重置;
当语音存在概率存在门限值时, 结束数组对应元素的值置为1,同时对结束数组元素序号加1;直到元素序号超过结束数组长度后重置。
优选的,所述步骤 S1具体为:
设置一功率谱计数器, 定义该功率谱计数器当前值为fct,fct初始值为0,设置依次减小的第一经验值TH1、第二经验值TH2、第三经验值TH3;其中第一经验值为语音帧功率谱的上限经验值、第二经验值为语音帧功率谱的中间经验值、第三经验值为语音帧功率谱的下限经验值;
对纯净语音逐帧检测功率谱,当前帧的功率谱PSC>第一经验值TH1时,fct为0,当TH2≤PSC≤TH1时,fct减5;当TH3≤PSCTH2时,fct加1;其余情况加2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110979720.7/2.html,转载请声明来源钻瓜专利网。