[发明专利]一种说话人确认方法及装置有效

申请号：	201710214666.0	申请日：	2017-04-01
公开（公告）号：	CN107146624B	公开（公告）日：	2019-11-22
发明（设计）人：	李蓝天;王东	申请（专利权）人：	清华大学
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/18
代理公司：	11002 北京路浩知识产权代理有限公司	代理人：	汤财宝<国际申请>=<国际公布>=<进入
地址：	100084 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种说话确认方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种说话人确认方法及装置，包括：获取第二语音；将预先获取的第一语音和所述第二语音转换成对应的第一声谱图和第二声谱图；使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取，获取对应的第一特征和第二特征；使用时延神经网络对所述第一特征和所述第二特征进行特征提取，获取对应的第三特征和第四特征；根据所述第三特征和所述第四特征对说话人进行确认。本发明通过将卷积神经网络和时延神经网络相结合，对所述第一语音和所述第二语音进行两次特征提取，将最终提取的第三特征和第四特征进行比较，从而实现对说话人的确认，本发明计算简单，鲁棒性强，能达到很好的识别效果。

技术领域

本发明涉及语音识别领域，更具体地，涉及一种说话人确认方法及装置。

背景技术

说话人确认是通过声音特征对说话人进行身份验证的方法。在进行说话人确认时，用户先预留一段声音，然后输入验证语音。将验证语音与系统预留语音进行对比，即可判断该用户是否存在。

目前，说话人确认方法以统计模型为主，性能较好的说话人确认方法一般基于i-vector模型和PLDA模型。i-vector模型对语音信号建立如下线性模型：

X＝Tw+v

其中,X为语音信号的MFCC特征，T为一个低秩矩阵，w为句子向量，即i-vector，v为高斯噪声。该模型事实上是一个概率PCA模型。实际应用中，一般将语音空间分成若干区域，对每个区域进行上述线性建模。所有区域共享句子向量w。w是一个低维向量，包含说话人、说话内容、信道等信息。为提高对说话人的区分性，引入PLDA模型：

w＝Hu+Kc+n

其中u为说话人向量，c为表达向量，包括发音方式，信道等，n为高斯噪声。PLDA将说话人特征和表达特征区分开。

上述模型基于通用的MFCC特征，通过模型将说话人信息分离出来。该方法基于信号的分布状态建模，因此需要较多的数据才能得到较好的结果，而且计算量较大，且容易受到信道、噪声和时变的影响。

发明内容

为克服上述需要数据多、计算量大且鲁棒性差的问题或者至少部分地解决上述问题，本发明提供一种说话人确认方法及装置。

根据本发明的一个方面，提供一种说话人确认方法，包括：

获取第二语音；

将预先获取的第一语音和所述第二语音转换成对应的第一声谱图和第二声谱图；

使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取，获取对应的第一特征和第二特征；

使用时延神经网络对所述第一特征和所述第二特征进行特征提取，获取对应的第三特征和第四特征；

根据所述第三特征和所述第四特征对说话人进行确认。

具体地，在使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取之前，还包括：