[发明专利]基于声纹的身份验证方法和装置有效
申请号: | 201710019531.9 | 申请日: | 2017-01-10 |
公开(公告)号: | CN108288470B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 石自强;刘柳;刘汝杰 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;江河清 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声纹 身份验证 方法 装置 | ||
本发明涉及基于声纹的身份验证方法和装置。该方法包括:一种基于声纹的身份验证方法,包括:接收未知语音;利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。根据本发明的身份验证方法和装置,可以从较短的语音中提取说话者的全息声纹,使得验证结果更加鲁棒。
技术领域
本发明涉及语音处理领域,更具体地涉及一种基于声纹的身份验证方法和装置。
背景技术
声纹已在许多领域有着广泛的应用,包括用户接口,国土安全,电话银行等。传统的方法通过联合因子分析(joint factor analysis)将语音片段映射到某空间,得到一种i-vector作为声纹。但是这种方法有两种缺陷:1,为了得到满意的性能,必须采用较长(20-30秒)的语音段来提取i-vector;2,说话者的其他信息,例如年龄、性别、语种信息是有助于身份确认的,但是目前这种框架没有办法或者很难加入说话者的其他信息。
因此,希望提供一种能够基于较短的、包含说话者的多种信息的声纹来进行身份验证的方法和装置。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供了一种基于声纹的身份验证方法,包括:接收未知语音;利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。
根据本发明的一个方面,提供一种基于声纹的身份验证装置,包括:语音接收单元,被配置为接收未知语音;声纹提取单元,被配置为利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;声纹拼接单元,被配置为将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及身份验证单元,被配置为利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出了根据本发明的一个实施例的基于声纹的身份验证方法100的示例性过程的流程图;
图2示出了训练得到基于神经网络的声纹提取器的示例性过程的流程图;
图3A示出了用于提取声纹的层次神经网络;
图3B示出了用于提取声纹的扁平神经网络;
图4是示出根据本发明的另一个实施例的基于声纹的身份验证装置400的示例性配置的框图;
图5是示出用于训练声纹提取器的声纹提取器训练装置500的一种示例性配置的框图;以及
图6是示出可以用于实施本发明的基于声纹的身份验证方法和装置的计算设备的示例性结构图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710019531.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音箱及交互方法
- 下一篇:用于识别语音的电子设备