[发明专利]一种基于深度学习的说话人识别方法有效
申请号: | 201410409252.X | 申请日: | 2014-08-19 |
公开(公告)号: | CN104157290B | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 陈喆;殷福亮;耿国胜 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04 |
代理公司: | 大连东方专利代理有限责任公司21212 | 代理人: | 姜玉蓉,李洪福 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 说话 识别 方法 | ||
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于深度学习的说话人识别方法。
背景技术
说话人识别通常被称为声纹识别,与其他生物识别技术相比,具有自然方便、用户接受度高、所需设备成本低等特点。说话人识别技术在身份验证、门禁系统、人机交互、司法鉴定、通信网络、移动终端、银行系统、国防军事等领域得到了广泛应用。说话人识别技术主要包括语音特征参数提取和说话人模式分类。语音特征提取是提取说话人的语音特征和声道特性。目前,主流的特征参数,包括MFCC、LPCC、基音周期等,都是以单个特征为主,表征说话人个性的信息不足,影响识别精度。说话人模式分类主要是根据语音特征参数,通过建立说话人特征模型,对说话人进行识别与分类。说话人模型主要有支持向量机、神经网络、高斯混合模型、隐马尔科夫模型、矢量量化模型等。这些模型利用概率统计等技术对说话人建模,具有良好的适应性和表达能力,但存在收敛速度过慢、易陷入局部极小值以及人为提取特征造成的特征空间不完备等问题。
现有技术中,Gupta等在文献Gupta A,Gupta H.Applications of MFCC and vector quantization in speaker recognition[C].IEEE International Conference on Intelligent Systems and Signal Processing,Gujarat,India,2013:170-173.中应用梅尔倒谱系数(MFCC)作为语音特征参数,并通过矢量量化模型进行说话人识别。该方法提取5维、12维、26维的梅尔倒谱系数,用8维、16维、32维、64维、128维的码书进行矢量量化,得到了较高的识别率。但是该方法在处理中具有以下缺陷:(1)在处理少量说话人时,效果尚可,但当说话人数目增多后,该方法的识别率较低;(2)仅用MFCC表征说话人的声道特征,其语音特征单一,鲁棒性差,识别效果不理想。
现有技术中:2006年,王金明等在文献:王金明,张雄伟.一种模糊高斯混合说话人识别模型[J].解放军理工大学学报(自然科学版),2006,7(3):214-219.将高斯混合模型应用到说话人识别系统中。该方法用MFCC表述语音特征,用高斯混合模型GMM对说话人特征建模,实验结果表明,该方法在开集与闭集说话人确认中,有较好的识别率。但是该方法具有如下缺陷:(1)对于纯净的说话人语音,识别效果尚可,但有噪声干扰时,识别性能明显下降,抗干扰能力弱;(2)采用高斯混合模型进行说话人识别,需要人为设定特征参数,不能自动学习出隐含的深层次特征,所以特征参数不完备。
在2011年07月20日公开的公开号为CN102129860A的中国专利中,申请人公开了一种基于无限状态隐马尔科夫模型的与文本相关的说话人识别方法。该发明通过提取线性预测倒谱系数(LPCC)作为语音特征参数,用隐马尔科夫模型(HMM)进行训练和识别,在识别阶段,计算说话人模型的似然值,将具有最大似然值所对应的说话人作为识别结果。但是该方法具有以下缺陷:(1)该方法进行说话人识别时,需要计算待测语音与所有说话人训练模型的似然度,识别计算量较大;(2)仅用LPCC表征说话人的声道特征,对于说话人辅音的表示不足,识别效果不好。
发明内容
根据现有技术中在进行说话人识别过程中大多采用的是单一语音特征,不能全面表征说话人声道特性、鲁棒性较差以及采用的说话人识别模型通常是人为设定特征参数,而不能自动学习更深层次的特征信息,识别效果不理想等问题,本发明公开了一种基于深度学习的说话人识别方法,通过对说话人的语音信号进行处理、建立基于受限玻尔兹曼机的深度信念网络模型,采用逐层贪婪算法,结合说话人语音特征参数,对建立好的深度信念网络模型进行训练,从而确定模型参数,然后再次输入语音信号,完成语音的识别过程。
本发明还具有以下有益效果:
1、本发明采用梅尔倒谱系数与Gammatone频率倒谱系数的组合特征,作为说话人的语音特征,而不是单一语音特征,提高了系统识别率。
2、本发明采用深度信念网络模型作为说话人模型,该模型具有提取语音特征深层次表示等特点,能够克服传统神经网络模型易收敛到局部极小值等问题,提高了系统的识别率。
3、在深度信念网络的顶层引入Softmax分类器,使得训练的深度信念网络具有良好的分类功能。
4、采用基于短时能量和短时过零率的双阈值端点检测法,可以精确地区分语音与噪声,有效地提高后续特征参数提取模块的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410409252.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:闪存及其读取方法
- 下一篇:虚拟演唱会现场主持伴音系统