[发明专利]用于识别说话人的建模设备和方法、以及说话人识别系统有效
申请号: | 201080070321.9 | 申请日: | 2010-12-10 |
公开(公告)号: | CN103229233A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | 沈海峰;马龙;张丙奇 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G10L15/14 | 分类号: | G10L15/14 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邸万奎 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 说话 建模 设备 方法 以及 系统 | ||
技术领域
本公开涉及语音(音频)处理以及语音识别技术,另外涉及说话人对比、电话会议、以及数字网络视听的技术。
背景技术
说话人识别技术对于许多应用,例如说话人跟踪、语音索引(audio index)、以及分段是非常有用的。近年来,提出了使用多个锚(说话人)模型对说话人进行建模的技术。将说话人语音投影到锚模型上,构成表示说话人的声学特性的向量。
图1表示用于进行说话人识别的以往设备的方框图。如图1所示,通过学习来自多个普通说话人的语音,生成锚空间。在参考锚集合生成单元(reference anchor set generation unit)102中,从锚空间(anchor space)选择作为集群(cluster)的重心的多个虚拟锚说话人(virtual anchor speakers)并形成参考锚集合(reference anchor set),或者选择距各集群的重心最近的锚说话人并形成参考锚集合。前端101取得目标说话人的登记语音,将该登记语音转换为特征参数,并将这些特征参数发送至声纹(voice print)生成单元103。声纹生成单元103基于从前端101发送来的特征参数以及由参考锚集合生成单元102生成的参考锚集合,生成声纹。接着,为了进一步用于说话人识别,将生成的声纹存储到声纹数据库104中。
发明内容
发明要解决的问题
根据图1可知,由设备100生成的参考锚集合仅能够反映锚空间自身的分布。因此,为了更好地表现目标说话人,需要更多的锚,因此计算量增大,难以在嵌入型系统中使用。
解决问题的方案
在本公开的一个方式中,实现用于识别说话人的建模设备,该设备包括:前端,从目标说话人取得登记语音;参考锚集合生成单元,基于锚空间使用登记语音生成参考锚集合;以及声纹生成单元,基于参考锚集合和登记语音生成声纹。
在本公开的另一个方式中,提供用于识别说话人的建模方法,该方法包括:从目标说话人取得登记语音的步骤;基于锚空间使用登记语音生成参考锚集合的步骤;以及基于参考锚集合和登记语音生成声纹的步骤。
在本公开的又一方式中,实现说话人识别系统,该系统包括:前端,从目标说话人取得登记语音及/或测试语音;参考锚集合生成单元,基于锚空间使用登记语音生成参考锚集合;声纹生成单元,基于参考锚集合以及登记语音及/或测试语音生成声纹;对比单元,将根据测试语音生成的声纹与根据登记语音生成的声纹进行比较;以及判断单元,基于比较结果识别目标说话人的同一性。
在本公开的再一方式中,实现说话人识别系统,该系统包括建模设备以及识别设备,建模设备包括:第一前端,从目标说话人取得登记语音;参考锚集合生成单元,基于锚空间使用登记语音生成参考锚集合;以及第一声纹生成单元,基于参考锚集合和登记语音生成第一声纹,识别设备包括:第二前端,从目标说话人取得测试语音;第二声纹生成单元,基于参考锚集合和测试语音生成第二声纹;对比单元,将第一声纹与第二声纹进行比较;以及判断单元,基于比较结果识别目标说话人的同一性。
使用本公开的建模设备、方法、以及说话人识别系统,考虑登记语音以及说话人自适应技术,从而能够生成尺寸更小的锚模型,能够进行具有尺寸更小的参考锚集合的、可靠性高的鲁棒的说话人识别。这对于进行计算速度的改善以及大幅度的存储器削减是非常有利的,因此计算量较少且参考锚集合较小,故更适于嵌入型应用。
上述为概要内容,因此当然进行了简化、一般化,并且省略了详细情况,因此本领域技术人员可以理解,概要内容仅为例示,并不意图以任何形式进行限制。本说明书中记载的设备及/或过程及/或其他主题的其他方式、特征、以及优点将通过本说明书中描述的内容而变得明确。本“发明内容”用于导入以下的“具体实施方式”中进一步说明的简化形式的概念的选择。本“发明内容”并不意图明示权利要求的主题的关键特征或本质特征,也并不意图用于辅助决定权利要求的主题的范围。
通过参考附图,利用以下的说明以及附属的权利要求可以使本公开的上述特征以及其他特征完全明确。这些附图仅表示基于本公开的多个实施方式,因此应当理解,不应将其认为是限制本公开的范围的内容,并且,使用附图更具体地、详细地说明本公开。
附图说明
图1是用于说话人识别的以往设备的方框图。
图2是基于本公开的一实施方式的用于说话人识别的建模设备的方框图。
图3是基于本公开的一实施方式的参考锚集合生成单元的方框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080070321.9/2.html,转载请声明来源钻瓜专利网。