[发明专利]一种说话人识别方法和装置有效
申请号: | 201410389619.6 | 申请日: | 2014-08-08 |
公开(公告)号: | CN104167208B | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 李志锋;李娜;乔宇 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/02 |
代理公司: | 深圳中一专利商标事务所44237 | 代理人: | 刘朗星 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 识别 方法 装置 | ||
技术领域
本发明属于语音识别领域,尤其涉及一种说话人识别方法和装置。
背景技术
随着计算机技术及互联网技术的不断进步,智能设备在人们的生活中已经变得越来越不可或缺。而作为人与智能设备之间交互方式之一的语音交互,由于其具有采集简便、易于存储、难于模仿、语音获取的成本低廉等特性,也成为了研究领域的热点。
目前的智能语音处理方式,根据所利用的语音信息的不同,主要分为:语音识别(Speech Recognition)、语种识别(Language Recognition)以及说话人识别(Speaker Recognition)等。其中,语音识别的目标在于判断出语音信号中所传递的是何种语义信息;语种识别的目标是识别出语音信号所属的语言种类或者方言类型;说话人识别则是通过提取表征说话人的个性特征,识别出说话人的身份。
由于语音是身份信息的重要载体,与人脸、指纹等其他生物特征相比,语音的获取成本低廉,使用简单,便于远程数据采集,且基于语音的人机交流界面更为友好,因此说话人识别技术成为重要的自动身份认证技术。
目前经常使用的说话人识别的方法包括基于高斯混合模型-通用背景模型GMM-UBM进行说话人语音识别,虽然GMM-UBM模型具有一定的噪声鲁棒性,但是由于该模型在训练时没有考虑到信道的影响,当训练语音和测试语音来自不同的信道时,导致其识别性能急剧下降。
为克服信道失配时所带来的识别性能的降低,现有技术提出了一种基于GMM-UBM模型的联合因子分析(Joint Factor Analysis,JFA))方式,来进行说话人识别。但是,由于JFA理论建立在GMM-UBM模型的框架基础上,假设说话人的GMM均值超向量所包含的主要信息可以映射到两个相互独立的低维子空间中,采用EM迭代算法对基于GMM模型框架的空间载荷矩阵进行估计,在计算过程中无法脱离GMM模型框架。基于JFA理论的说话人确认方法是在测试过程中根据已估计好的参数对说话人模型进行了信道补偿,测试性能差。
发明内容
本发明实施例的目的在于提供一种基于JFA说话人超向量的非参数区分的说话人识别方法,以解决现有技术基于GMM-UBM模型的联合因子分析方式,来进行说话人识别时测试性能差的问题。
本发明所述说话人识别方法,包括下述实施步骤:
提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;
对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;
根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;
根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则,以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。
本发明实施例的另一目的在于提供一种说话人识别装置,其特征在于,所述装置包括:
提取单元,用于提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;
分段单元,用于对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;
建模单元,用于根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;
识别单元,用于根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则,以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。
在本发明中,提取了说话人的去除信道信息影响的GMM超向量作为JFA说话人超向量,既能够详细描述说话人的个性特征,又去除了通信信息的影响,通过对JFA说话人超向量进行分段后,再进行非参数区分分析,建立子空间说话人模型,由训练好的子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量,根据预设的计算规则进行识别。和现有技术相比,由于对JFA超向量进行了非参数区分分析,进而提取了类别边界的区分信息,从而提高说话人识别系统性能。
附图说明
图1是本发明实施例提供的说话人识别方法的实现流程图;
图2是本发明实施例提供的采用平均划分方法,将所述JFA说话人超向量划分为多个子向量集的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410389619.6/2.html,转载请声明来源钻瓜专利网。