[发明专利]一种基于3D卷积神经网络的声纹识别方法在审
申请号: | 201810804229.9 | 申请日: | 2018-07-20 |
公开(公告)号: | CN109215665A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 王艺航;熊晓明;刘祥;李辉 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/02;G10L21/0232;G10L25/24 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杜鹏飞;杨晓松 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于3D卷积神经网络的声纹识别方法,包括下述步骤:步骤一,对语音信号的预处理;语音采集过程中会产生较多的信道噪声,则会给识别任务带来较大的困难,因此首先采用谱相减法对输入语音数据进行去噪处理,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱;此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;去除信道噪音的同时,完全保存了与说话人有关的所有信息;本发明的语音信号预处理采用谱相减法,相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,从而可以有效提高识别的准确性。 | ||
搜索关键词: | 谱相减法 信道噪声 预处理 卷积神经网络 声纹识别 语音信号 纯净语音 录音设备 输入语音 物理意义 信道噪音 语音采集 约束条件 噪声频谱 运算量 减去 频谱 去噪 去除 噪声 语音 保存 引入 | ||
【主权项】:
1.一种基于3D卷积神经网络的声纹识别方法,其特征在于,包括下述步骤:步骤一,对语音信号的预处理;语音采集过程中会产生较多的信道噪声,则会给识别任务带来较大的困难,因此首先采用谱相减法对输入语音数据进行去噪处理,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱;此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;去除信道噪音的同时,完全保存了与说话人有关的所有信息;其中,所述谱相减法的具体步骤如下:首先对输入的语音信号进行预滤波,对滤波后的语音信号进行预加重,将语音信号分帧,对信号帧加汉明窗,对加窗后的信号进行FFT变换,对各帧语音信号求功率谱,然后求平均噪声功率,利用VAD进行噪声估计监测寂静段,进而组合递归平滑,更新噪声谱,进行谱减运算,得出估计的语音信号功率谱,然后插入相位谱,计算出语音谱,再进行IFFT变换,得到还原的语音帧,根据各个语音帧组合为语音信号,将语音信号加重得到最终信号;步骤二,声学特征的提取和拼接;对步骤一中得到的纯语音数据按照帧长25ms、帧移10ms进行分帧,每一条语音数据能够分为多帧语音信号,分别计算每一帧语音信号的MFCC特征参数;其中,所述计算MFCC特征参数的具体步骤如下:首先将语音信号通过一个高通滤波器,即预加重处理,然后将信号分帧,每一帧乘以汉明窗,之后每帧再经过FFT变换以得到在频谱上的能量分布,然后将功率谱通过一组Mel标度的三角形滤波器组,计算每个滤波器组输出的对数能量,最后经过DCT变换得到MFCC特征参数;然后选择前13维MFCC特征参数并继续计算其一阶和二阶差分,分别提取前13维MFCC特征拼接成为一个39维的特征向量,由此作为这一帧语音信号的特征参数;然后将每39帧语音信号的39个特征合并成为一个39*39的二维数据,不足39帧的语音信号丢弃;步骤三,3D卷积神经网络的构建;首先堆叠20帧的数据,即20*39*39的数据作为3D卷积神经网络的输入;然后根据识别结果不断调整卷积神经网络参数,具体步骤如下:首先收集大量的人声数据,每个人的声音数据需要多个,然后将部分的人声数据用于特征采集,剩余部分的人声数据用于声纹识别,当识别输出的身份匹配不正确时,修正卷积神经网络参数,直到最终识别正确;最后,通过softmax分类器输出结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810804229.9/,转载请声明来源钻瓜专利网。