[发明专利]一种基于神经网络的语音识别方法、装置有效
申请号: | 201910463635.8 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110197666B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 赵艮平;王理;黄国恒;赵芝茵 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/02;G10L17/04;G10L15/16;G10L15/06;G10L15/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 语音 识别 方法 装置 | ||
1.一种基于神经网络的语音识别方法,其特征在于,包括:
确定儿童语音的频率范围,并获取所述频率范围的语音数据;
将所述语音数据划分为多个频带,确定每个所述频带对应的带通滤波器,并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征;所述确定每个所述频带对应的带通滤波器,包括:确定带通滤波器模型,并确定所述带通滤波器模型中每个所述频带对应的参数;
提取所述特征的幅度谱,并利用大于预设值的幅度谱训练卷积神经网络,以便利用训练完成的卷积神经网络进行儿童语音的识别;
其中,所述带通滤波器的输出为:
St表示为输入信号,所述带通滤波器具有长度为NTF的有限脉冲响应,hk,τ表示为所述频带对应的带通滤波器的变化;
所述幅度谱表示为:
ΔtTF·τ表示为时间分解的时间,NENV表示为时间分解的样本,li,τ表示为时间分解的低通滤波器。
2.根据权利要求1所述语音识别方法,其特征在于,所述参数包括采样大小。
3.根据权利要求1至2中任一项所述语音识别方法,其特征在于,所述提取所述特征的幅度谱,包括:
利用每个所述带通滤波器输出的实值信号提取所述特征的幅度谱。
4.根据权利要求3所述语音识别方法,其特征在于,所述实值信号包括全波整流信号和半波整流信号。
5.一种基于神经网络的语音识别装置,其特征在于,包括:
获取模块,用于确定儿童语音的频率范围,并获取所述频率范围的语音数据;
提取模块,用于将所述语音数据划分为多个频带,确定每个所述频带对应的带通滤波器,并利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征;
训练模块,用于提取所述特征的幅度谱,并利用大于预设值的幅度谱训练卷积神经网络,以便利用训练完成的卷积神经网络进行儿童语音的识别;
所述提取模块包括:
划分单元,用于将所述语音数据划分为多个频带;
确定单元,用于确定带通滤波器模型,并确定所述带通滤波器模型中每个所述频带对应的参数;
第一提取单元,用于利用每个所述频带对应的带通滤波器提取每个所述频带的语音数据的特征;
其中,所述带通滤波器的输出为:
St表示为输入信号,所述带通滤波器具有长度为NTF的有限脉冲响应,hk,τ表示为所述频带对应的带通滤波器的变化;
所述幅度谱表示为:
ΔtTF·τ表示为时间分解的时间,NENV表示为时间分解的样本,li,τ表示为时间分解的低通滤波器。
6.根据权利要求5所述语音识别方法,其特征在于,所述训练模块包括:
第二提取单元,用于利用每个所述带通滤波器输出的实值信号提取所述特征的幅度谱;
训练单元,用于利用大于预设值的幅度谱训练卷积神经网络,以便利用训练完成的卷积神经网络进行儿童语音的识别。
7.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述语音识别方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述语音识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910463635.8/1.html,转载请声明来源钻瓜专利网。