[发明专利]一种声纹识别方法和装置无效

专利信息
申请号: 201310032846.9 申请日: 2013-01-28
公开(公告)号: CN103971690A 公开(公告)日: 2014-08-06
发明(设计)人: 王尔玉;卢鲤;张翔;刘海波;李露;饶丰;陆读羚;岳帅;陈波 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G10L17/20 分类号: G10L17/20
代理公司: 北京德琦知识产权代理有限公司 11018 代理人: 张驰;宋志强
地址: 518044 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 声纹 识别 方法 装置
【说明书】:

技术领域

发明实施方式涉及身份认证技术领域,更具体地,涉及一种声纹识别方法和装置。

背景技术

声纹识别(Voiceprint Recognition,VPR)是生物识别技术的一种,也称为说话人识别(Speaker Recognition)。说话人识别包括两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。说话人辨认用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而说话人确认用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。

声纹识别包括文本相关(Text-Dependent)和文本无关(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。

在现有的说话人识别技术中,主流的识别系统均采用谱基的特征,如MFCC,PLP以及LPCC等。它们均来自比较直观的语谱图,容易受各种噪声影响。而在说话人识别技术的应用场景当中,采集到的语音数据不太可能是干净的,并且其中包含的噪声种类复杂,信噪比很差。如果使用传统的底层谱基特征,需要在特征提取之后,再进行大量的特征端、模型端以及得分端的噪声补偿,计算复杂度较大,消耗时间过长,并且不能完全的消除噪声的影响。

发明内容

本发明实施方式提出一种声纹识别方法,以抵御噪声干扰。

本发明实施方式提出一种声纹识别装置,以抵御噪声干扰。

本发明实施方式的技术方案如下:

一种声纹识别方法,该方法包括:

基于无标注语音数据建立深层神经网络初级模型,并且基于有标注语音数据对该深层神经网络初级模型进行训练,以获取深层神经网络二级模型;

利用该深层神经网络二级模型注册说话人高层声纹特征与说话人标识;

接收测试语音数据,基于该深层神经网络二级模型从测试语音数据中提取测试语音高层声纹特征,并且基于该测试语音高层声纹特征确定说话人标识。

一种声纹识别装置,该装置包括深层神经网络二级模型获取单元、注册单元和声纹识别单元,其中:

深层神经网络二级模型获取单元,用于基于无标注语音数据建立深层神经网络初级模型,并且基于有标注语音数据对该深层神经网络初级模型进行训练,以获取深层神经网络二级模型;

注册单元,用于利用该深层神经网络二级模型注册说话人高层声纹特征与说话人标识;

声纹识别单元,用于接收测试语音数据,基于该深层神经网络二级模型从测试语音数据中提取测试语音高层声纹特征,并且基于该测试语音高层声纹特征确定说话人标识。

从上述技术方案可以看出,在本发明实施方式中,基于无标注语音数据建立深层神经网络初级模型,并且基于有标注语音数据对该深层神经网络初级模型进行训练,以获取深层神经网络二级模型;利用该深层神经网络二级模型注册说话人高层声纹特征与说话人标识;接收测试语音数据,基于该深层神经网络二级模型从测试语音数据中提取测试语音高层声纹特征,并且基于该测试语音高层声纹特征确定说话人标识。由此可见,应用本发明实施方式之后,可以有效地从底层语谱特征入手,通过深层神经网络自动学习语音信号当中包含能够抵御噪声干扰的高层次说话人信息,从而可以有效抵御噪声干扰。

另外,可以将本发明实施方式应用于特征提取端,在有计算开销限制的环境下,能够直接获取鲁棒性特征用于说话人识别应用。在没有计算资源限制的环境下,在获取这种特征之后,本发明实施方式仍然可以通过原来的信道补偿算法,并且可以获得进一步的性能提升。

附图说明

图1为根据本发明实施方式声纹识别方法流程图;

图2为根据本发明实施方式的深层神经网络基本单元示意图;

图3为根据本发明实施方式的深层神经网络层叠示意图;

图4为根据本发明实施方式深层神经网络二级模型建立过程示意图;

图5为根据本发明实施方式说话人注册过程示意图;

图6为根据本发明实施方式说话人测试过程示意图;

图7为根据本发明实施方式说话人声纹识别装置结构示意图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310032846.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top