[发明专利]一种基于神经网络的声音识别方法有效
申请号: | 201811430315.4 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109285539B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 丁岩;牛英山;王爽;费顺超 | 申请(专利权)人: | 中国电子科技集团公司第四十七研究所 |
主分类号: | G10L15/16 | 分类号: | G10L15/16 |
代理公司: | 沈阳科苑专利商标代理有限公司 21002 | 代理人: | 许宗富 |
地址: | 110032 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 声音 识别 方法 | ||
1.一种基于神经网络的声音识别方法,其特征在于,包括:
S1、对样本声音、待识别声音进行预处理,得到样本声音频率谱、待识别声音频谱;
S2、若声音指令为学习指令,则将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表;包括:
S21、如果该样本声音频率谱为首次学习,则将其数据在L0层对应的神经网络节点的表项中创建表项记录;
所述表项记录包括:索引值index、指令opcode、频率谱数据值pvalue、学习次数study_num、时间戳timestamp、有效位valid;所述索引值index表示样本声音频率谱的样本点编号、指令opcode表示当前频率谱数据是样本声音还是待识别声音、频率谱数据值pvalue为按照短时傅里叶变换后的数据值、学习次数study_num表示当前频率谱数据被声音神经网络记录的次数、时间戳timestamp表示最后一次记录该当前频率谱数据的时间、有效位valid表示当前频谱的数据值是否已经学习过;
S22、如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录;包括:
根据有效位valid是否有效,若有效,则在Li层的神经网络节点表项中,将频率谱数据值pvalue的值进行累加,学习次数study_num的值加1;
否则,在Li+1层对应的神经网络节点的表项中创建表项记录,包括vaild值置1,将指令中的pvalue值写入表项中的频率谱数据值pvalue中,学习次数study_num置1;
S3、若声音指令为识别指令,则将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音。
2.根据权利要求1所述的一种基于神经网络的声音识别方法,其特征在于所述预处理包括:
对样本声音、待识别声音进行插值、抽取采样得到定长的声音片段;
再经过短时傅里叶变换,得到样本声音频率谱、待识别声音频谱。
3.根据权利要求2所述的一种基于神经网络的声音识别方法,其特征在于所述短时傅里叶变换为:
其中,短时傅里叶变换是窗口选语音信号的标准傅里叶变换,n是窗口长度,ω是角频率,x(m)是时间点为m的声音信号序列,ω(n-m)表示窗函数,当n取值不同时,窗口w(n-m)沿着x(m)序列滑动,对声音信号进行截取,经过傅里叶变换将声音信号从时域变成频域,得到声音信号频率谱;经过变换后得到的声音频率谱的每个采样点与神经网络节点一一对应。
4.按照权利要求1所述一种基于神经网络的声音识别方法,其特征在于所述将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音,包括:
逐层深度的遍历声音神经网络查找表的所有节点,若有效位valid有效,则将待识别声音频谱的数据值与该节点对应的频率谱数据值pvalue进行比较,确定误差最小的节点的索引值index和该节点所在的深度deep;根据索引值index输出原样本声音。
5.按照权利要求1或4所述一种基于神经网络的声音识别方法,其特征在于:学习或识别过程中,若当前索引值index对应的时间戳timestamp在预设时间范围内没有更改,则删除该当前索引值index对应的表项内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第四十七研究所,未经中国电子科技集团公司第四十七研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811430315.4/1.html,转载请声明来源钻瓜专利网。