[发明专利]一种利用神经网络的语音活性检测方法有效

申请号：	202110979720.7	申请日：	2021-08-25
公开（公告）号：	CN113421595B	公开（公告）日：	2021-11-09
发明（设计）人：	万东琴;胡岸;刘文通;曾帆	申请（专利权）人：	成都启英泰伦科技有限公司
主分类号：	G10L25/81	分类号：	G10L25/81;G10L25/84;G10L25/30;G06K9/62;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	610041 四川省成都市高***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用神经网络语音活性检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种利用神经网络的语音活性检测方法，其特征在于，包括模型训练过程和语音活性检测过程；

所述模型训练过程包括以下步骤：

S1.对用于训练的纯净语音确定端点检测标签；

S2.对纯净语音进行随机加噪，构造训练集；

S3.逐帧处理，提取训练集中每一帧语音的多阶多分辨率耳蜗图特征向量；

S4.构建多层门控制循环单元网络，利用训练集对其进行训练，得到多层门控制循环单元成熟模型；

语音活性检测过程：

S5.提取测试语音每一帧的多阶多分辨率耳蜗图特征向量；

S6.经过神经网络的前向网络，对每一帧给出一个语音存在概率；

S7.利用状态机对语音存在概率值进行后处理，输出一个平滑且稳定的语音活性检测标识；

所述后处理为将离散的语音存在概率值归整为仅采用0和1表示；

步骤S7中，利用状态机对语音存在概率值进行后处理的具体方法为：

设置状态机状态0为初始态，1为确定态，2为退出态；

设置启动数组、结束数组，设置存在门限值；

在状态机状态为确定态下时，

当语音存在概率存在门限值时，启动数组对应元素的值置为1，同时对启动数组元素序号加1；直到元素序号超过启动数组长度后重置；

当语音存在概率存在门限值时, 结束数组对应元素的值置为1，同时对结束数组元素序号加1；直到元素序号超过结束数组长度后重置。

2.如权利要求1所述语音活性检测方法，其特征在于，步骤 S1具体为：

设置一功率谱计数器, 定义该功率谱计数器当前值为fct，fct初始值为0，设置依次减小的第一经验值TH1、第二经验值TH2、第三经验值TH3；其中第一经验值为语音帧功率谱的上限经验值、第二经验值为语音帧功率谱的中间经验值、第三经验值为语音帧功率谱的下限经验值；

对纯净语音逐帧检测功率谱，当前帧的功率谱PSC＞第一经验值TH1时，fct为0，当TH2≤PSC≤TH1时，fct减5；当TH3≤PSCTH2时，fct加1；其余情况加2；

最终对fct进行统计，若fct≥ 8 ，则当前帧端点检测标签标注为1；否则为0。

3.如权利要求1所述语音活性检测方法，其特征在于，步骤S3中多阶多分辨率耳蜗图特征向量提取过程包括步骤S31-S34：

S31.将训练集中的带噪语音通过一个N通道滤波器组变换到频域，获取N个信号子带；

S32.按照两种不同帧长，提取N个信号子带的对数功率谱值，分别得到N维的第一功率谱向量coch1和第二功率谱向量coch2；

S33.对第一功率谱向量coch1和第二功率谱向量coch2各自按照不同大小的矩形窗进行平均处理，得到N维的第三功率谱向量coch3和第四功率谱向量coch4；

通过步骤S31-S33，每一帧可以得到N*4的多分辨率耳蜗图特征向量，包括四个功率谱向量coch1、coch2、coch3、coch4；

S34.计算所述多分辨率耳蜗图特征向量的一阶差分特征向量和二阶差分特征向量，与多分辨率耳蜗图特征向量合并后得到多阶多分辨率耳蜗图特征向量。

4.如权利要求1所述语音活性检测方法，其特征在于，步骤S4中多层门控制循环单元网络包括至少3个门控制循环单元模块，将当前帧、当前帧之前帧、当前帧之后帧的多阶多分辨率耳蜗图特征向量分别输入各个门控制循环单元模块中进行训练。

5.如权利要求1所述语音活性检测方法，其特征在于，步骤S7中还包括以下步骤：

设置启动数组计数器和结束数组计数器，

启动数组计数器对启动数组中的连续取值为1次数进行计数，

结束数组计数器对结束数组中所有的1进行计数，并设置一个提前结束门限值，在结束数组计数器计数超过所述提前结束门限值时，结束运算；

设置最小开始门限值、最大结束门限值、超时门限值、语音计数器；

当状态机状态为0时，如果启动数组计数器最小开始门限值，将状态机状态置为1，并把结束数组置为0；

启动数组计数器最小开始门限值，则维持状态机状态0；

当状态机状态为1时，语音计数器加1，如果语音计数器超时门限值，或者结束数组计数器最大结束门限值，强制结束并把状态机状态置为2；否则维持状态机状态为1；

状态机状态置为2后，将启动数组和结束数组内全部元素清零，启动数组和结束数组的元素序号均置为1，再将状态机状态置为0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司，未经成都启英泰伦科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110979720.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种光电位移传感器的闭环精度校准检测装置
下一篇：工件加工输送盘及使用其的工件加工输送机构

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种利用神经网络的语音活性检测方法有效

专利文献下载