[发明专利]一种基于CNN与GRU网络融合的声纹识别方法在审
申请号: | 202010719665.3 | 申请日: | 2020-07-23 |
公开(公告)号: | CN112053694A | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 崔建伟;陈宝远 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/14;G10L21/0216;G10L25/12;G10L25/18;G10L25/27;G10L25/30;G10L25/45 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 岳泉清 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cnn gru 网络 融合 声纹 识别 方法 | ||
1.一种基于CNN与GRU网络融合的声纹识别方法,其特征在于,包括以下步骤:
步骤1、获取待识别语音片段;
步骤2、对原始语音信号进行预处理,生成待识别语音片段的语谱图;
步骤3、将所述语谱图输入时间序列相关的组合神经网络声纹识别模型,得到待识别语音片段的身份分类信息。
2.如权利要求1所述的基于CNN与GRU网络融合的声纹识别方法,其特征在于,所述CNN与GRU网络声纹识别模型的训练方法包括如下步骤:
步骤201、获取语音信号的训练集以及语音信号的测试集;
步骤202、通过预加重、分帧、加窗以及端点检测等方法进行语音信号预处理;
步骤203、将语音信号通过改进RLS算法提高信噪比;
步骤204、通过离散傅里叶变换等操作将语音片段训练集以及语音信号测试集的每个语音片段进行转换,得到语谱图训练集与语谱图测试集;
步骤205、将语谱图的训练集输入待训练的CNN与GRU网络,对待训练的CNN与GRU网络进行训练;
步骤206、将语谱图的测试集输入训练后的CNN与GRU网络,若输出的测试结果满足预设条件,则完成CNN与GRU网络的训练,否则返回步骤205再次进行训练,直至测试结果满足预设条件为止。
3.如权利要求2所述的基于CNN与GRU网络融合的声纹识别方法,其特征在于,改进RLS算法包括:
步骤301、基于公式e(n)=d(n)-xT(n)ω(n-1)求得预测误差对语音信号进行增强处理;
步骤302、基于公式得到卡尔曼增益系数;
步骤303、基于公式对遗忘因子进行改进处理,以同时具备较快跟踪速度以及较小的稳态误差;
步骤304、基于公式ω(n)=ω(n-1)+k(n)e(n)完成对滤波器系数更新。
4.如权利要求1所述的基于CNN与GRU网络融合的声纹识别方法,其特征在于,语谱图的生成过程包括:
步骤401、基于一阶数字滤波器H(z)=1-αz-1对语音片段进行预加重处理,式中α为滤波器系数;
步骤402、将预加重后的语音片段进行分帧处理,并保持帧与帧之间的平滑过渡和其连续性;
步骤403、基于公式对每一帧信号进行傅里叶变换,其中M为每一帧的采样点数,第n帧语音的M个采样点组成的序列为x0(n),x1(n),…,xM-1(n);
步骤404、基于公式E(n,k)=|X(n,k)|2=XR(n,k)2+XI(n,k)2计算每一帧信号的能量谱密度,其中X(n,k)为第n帧语音经过M点FTT变换后得到的复数序列;
步骤405、对步骤404能量谱密度取对数得到
步骤406、基于公式采用归一化方法对语谱图进行归一化得到归一化语谱图,其中Qmax(a,b)与Qmin(a,b)分别为语谱图灰度级中的最大值与最小值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010719665.3/1.html,转载请声明来源钻瓜专利网。