[发明专利]基于MFCC和改进BP神经网络的声纹识别方法及系统在审
申请号: | 201810963310.1 | 申请日: | 2018-08-22 |
公开(公告)号: | CN108847244A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 高明柯;王熠;周燕琼;邵培南;夏定江;白利娟;李旭波;崔璨;王灿 | 申请(专利权)人: | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18;G10L25/24 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 201800 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征参数 语音信号 改进 声纹识别 迭代 模型训练 随机梯度 特征提取 训练效果 错误率 有效地 声纹 应用 | ||
1.一种基于MFCC和改进BP神经网络的声纹识别方法,其特征在于,包括:
语音处理步骤:采用MFCC对语音信号进行特征提取,得到MFCC特征参数;
模型训练步骤:将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练;
语音识别步骤:从待识别语音信号中提取MFCC特征参数,输入训练好的改进BP神经网络中计算,将错误率最低值所对应的计算结果作为最终识别结果。
2.根据权利要求1所述的于MFCC和改进BP神经网络的声纹识别方法,其特征在于,所述语音处理步骤包括:
预加重子步骤:将语音信号通过滤波器提升高频部分;
分帧子步骤:对预加重后的语音信号进行分帧;
汉明窗子步骤:将分帧后的语音信号的每帧乘以汉明窗;
快速傅里叶变换子步骤:对汉明窗后的每一帧语音信号进行快速傅里叶变换,得到能量谱;
三角带通滤波子步骤:将能量普输入三角带通滤波器组;
对数能量计算子步骤:计算每个三角带通滤波器输出的对数能量;
离散余弦变换子步骤:将计算得到的对数能量代入离散余弦变换,得到MFCC特征参数;
动态差分参数子步骤:通过MFCC的差分谱来表示语音信号的动态特性,得到多维MFCC特征参数。
3.根据权利要求2所述的于MFCC和改进BP神经网络的声纹识别方法,其特征在于,所述预加重子步骤中,预加重计算公式为:
H(Z)=1-μz-1
其中,μ的值介于0.9-1.0之间,Z为预加重之后的语音信号,z为预加重之前的语音信号。
4.根据权利要求2所述的于MFCC和改进BP神经网络的声纹识别方法,其特征在于,所述三角带通滤波器组包括40个三角带通滤波器,所述离散余弦变换子步骤将计算得到的40个对数能量代入离散余弦变换,得到13阶MFCC。
5.根据权利要求1所述的于MFCC和改进BP神经网络的声纹识别方法,其特征在于,所述模型训练步骤中,BP神经网络的改进方法包括:
网络初始化子步骤:对BP神经网络进行初始化,设输入层的节点个数为n,隐含层的节点个数为l,输出层的节点个数为m,输入层到隐含层的权重ωij,隐含层到输出层的权重为ωjk,输入层到隐含层的偏置为aj,隐含层到输出层的偏置为bk,学习速率为η,激励函数为g(x),其中激励函数为g(x)取Sigmoid函数,形式为
隐藏层输出子步骤:在三层BP神经网络中,隐含层的输出Hj为
输出层输出子步骤:输出层的输出Ok为
误差计算子步骤:取误差公式为
其中Yk为期望输出,记Yk-Ok=ek,则E表示为:
权值更新子步骤:
在训练过程中,通过使用随机梯度下降反向传播神经网络来修改权重;
偏置更新子步骤:
迭代判断子步骤:指定迭代次数,判断相邻两次误差之间的差别是否小于预定的值。
6.一种基于MFCC和改进BP神经网络的声纹识别系统,其特征在于,包括:
语音处理模块:采用MFCC对语音信号进行特征提取,得到MFCC特征参数;
模型训练模块:将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练;
语音识别模块:从待识别语音信号中提取MFCC特征参数,输入训练好的改进BP神经网络中计算,将错误率最低值所对应的计算结果作为最终识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东计算技术研究所(中国电子科技集团公司第三十二研究所),未经华东计算技术研究所(中国电子科技集团公司第三十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810963310.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:声纹特征更新方法、装置、存储介质及电子设备
- 下一篇:语音检测方法和装置