[发明专利]一种鉴别式局部信息距离保持映射的说话人确认方法在审
申请号: | 201710812259.X | 申请日: | 2017-09-11 |
公开(公告)号: | CN107633845A | 公开(公告)日: | 2018-01-26 |
发明(设计)人: | 何亮;陈仙红;徐灿;刘加 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 鉴别 局部 信息 距离 保持 映射 说话 确认 方法 | ||
技术领域
本发明属于声纹识别、模式识别与机器学习技术领域,特别地涉及一种鉴别式局部信息距离保持映射的说话人确认方法。
背景技术
说话人确认是指根据包含在语音中的和说话人相关的信息来确认说话人身份,随着信息技术和通信技术的迅速发展,说话人确认技术越来越受到重视并在诸多领域得到广泛的应用。如身份鉴别,缉拿电话信道罪犯,法庭中根据电话录音做身份确认,电话语音跟踪,提供防盗门开启功能。互联网应用和通信领域,说话人确认技术可以应用于声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登录等领域。
目前最好的说话人确认方法是i-vector/概率线性鉴别分析(i-vector/PLDA,该方法利用子空间技术,假设说话人分量或信道分量存在于一个子空间中,通过投影的方法,使得投影后的矢量或凸显说话人的因素,或抑制信道的影响。这个算法的特点是:1)数据驱动。子空间方法利用了辅助数据库上的说话人标签信息求解出说话人分量或信道分量所在子空间。整个过程不需要人为干预。所求得的子空间完全由训练数据决定,故具有数据驱动的特点。2)维度低。子空间相对于未投影前的高维矢量的维度大大降低;维度降低使在利用有限的数据量的前提下,更加稳健的估计未知参数。3)要求子空间投影后类内距离最小化,类间距离最大化。从而通过投影后的向量可以容易区分出同类点和异类点。然而,i-vector/PLDA技术也存在不足:该方法最大化所有投影后的异类点间的距离,而没有着重考虑来自不同类但距离却很相近的易混语音,对易混语音的区分性有待提高;全局线性也是该技术继续发展的制约。
为了突破全局线性的约束,2000年,Roweis S和Tenenbaum J在《Science》杂志发表了两篇论文,之后流形学习在图像识别、文本识别、生物特征识别和雷达型号处理等领域迅速发展起来。流形学习假设高维数据位于低维流形中,例如道路是三维空间中的一维流形,我们可以用道路中的地址号码来确定地址,而不用三维坐标,从而大大降低数据维度。相比于传统主成分分析(PCA)、线性鉴别分析(LDA)、概率线性鉴别分析(PLDA)降维方法(请给出相应的中文名称),流形学习在模式识别问题方面取得非常好的识别效果,但在说话人确认领域尚不成熟。
发明内容
本发明的目的是为克服i-vector/PLDA技术全局线性假设和对易混语音的区分性有待提高的问题,提出一种鉴别式局部信息距离保持映射(discriminant local information distance preserving projection,DLIDPP)的说话人确认方法。本发明不需要全局线性的假设,只考虑空间的局部线性,适用性更强,并且着重考虑了异类近邻点,增强对易混说话人语音的鉴别,具有更好的区分能力,提高说话人确认的准确率。
本发明提出的一种鉴别式局部信息距离保持映射的说话人确认方法,其特征在于,包括以下步骤:
1)训练阶段;具体包括以下步骤:
1.1)获取训练语音数据;训练语音数据对应的说话人个数为S,S≥500,每个说话人的训练语音数据大于等于5条,总共获取N条训练语音数据,N≥2500,每条训练语音数据时长大于30秒,每个说话人对应的训练语音数据为已知;
1.2)提取步骤1.1)获取的每条训练语音数据的i-vector,记为ωtrain,n,n=1,2,…,N;具体步骤如下:
1.2.1)提取每条训练语音数据的Baum-Welch统计量,表达式如下:
式中,Zn,c,Fn,c,Sn,c分别表示第n条训练语音数据第c个高斯的零阶、一阶、二阶统计量;Tn为第n条训练语音数据的总帧数;训练语音数据每帧提取一个特征,因此总帧数Tn等于该条训练语音数据的总特征数;是第n条训练语音数据第t帧的特征;μubm,c是通用背景模型的第c个高斯的均值,c=1,2,…,C,C为通用背景模型总的高斯个数;是属于第c个高斯产生的概率,即:
式中,ωubm,c是通用背景模型的第c个高斯所占的权重,∑c为通用背景模型的第c个高斯的协方差矩阵;
1.2.2)提取每条训练语音数据的i-vector,表达式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710812259.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:识别人国籍的方法及装置
- 下一篇:动物语言信息转换与识别的方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置