[发明专利]说话人识别方法和说话人识别设备在审
申请号: | 201610216660.2 | 申请日: | 2016-04-07 |
公开(公告)号: | CN107274904A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 石自强;刘柳;刘汝杰 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 朱胜,吴琼 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 识别 方法 设备 | ||
技术领域
本发明一般地涉及信息处理领域。具体而言,本发明涉及一种能够准确进行说话人识别的方法和设备。
背景技术
近年来,基于语音的信息处理技术得到了迅猛的发展并具有广泛的应用。其中比较重要的是基于语音对说话人进行识别的技术,这被称为说话人识别,也被称为声纹识别。例如,说话人识别可应用于对说话人的身份进行确认的场合,如法院审理、远程金融服务、安保,语音检索、反恐、军事等领域亦有应用。
虽然说话人的语音特征本身具有相对的稳定性,但是实际捕获说话人语音时,难免受到声音传播信道、音频捕获设备、周边环境噪声等的影响。这会导致所获得的说话人语音特征的变化,显然对说话人识别的性能造成不利影响。
本发明致力于克服声音传播信道、音频捕获设备、周边环境噪声等对说话人识别的不利影响,提高说话人识别的准确度。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的 前序。
本发明的目的是提出一种准确识别说话人的方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种说话人识别方法,该说话人识别方法包括:从待识别说话人语料中,提取待识别说话人的语音特征;基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
根据本发明的另一个方面,提供了一种说话人识别设备,该说话人识别设备包括:说话人语义特征提取装置,被配置为:从待识别说话人语料中,提取待识别说话人的语音特征;说话人模型构建装置,被配置为:基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及说话人识别装置,被配置为:比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明的实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。 在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明的实施例的说话人识别方法的流程图。
图2示出了根据本发明的实施例的获得通用背景模型UBM、梯度通用说话人模型GUSM的方法的流程图。
图3示出了根据本发明的实施例的获得总变化矩阵和已知说话人模型的方法的流程图。
图4示出了根据本发明的实施例的说话人识别设备的结构方框图。
图5示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610216660.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本处理方法和装置、用于文本处理的装置
- 下一篇:一种声纹识别方法及系统