[发明专利]一种鉴别式局部信息距离保持映射的说话人确认方法在审
申请号: | 201710812259.X | 申请日: | 2017-09-11 |
公开(公告)号: | CN107633845A | 公开(公告)日: | 2018-01-26 |
发明(设计)人: | 何亮;陈仙红;徐灿;刘加 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 鉴别 局部 信息 距离 保持 映射 说话 确认 方法 | ||
1.一种鉴别式局部信息距离保持映射的说话人确认方法,其特征在于,包括以下步骤:
1)训练阶段;具体包括以下步骤:
1.1)获取训练语音数据;训练语音数据对应的说话人个数为S,S≥500,每个说话人的训练语音数据大于等于5条,总共获取N条训练语音数据,N≥2500,每条训练语音数据时长大于30秒,每个说话人对应的训练语音数据为已知;
1.2)提取步骤1.1)获取的每条训练语音数据的i-vector,记为ωtrain,n,n=1,2,…,N;具体步骤如下:
1.2.1)提取每条训练语音数据的Baum-Welch统计量,表达式如下:
式中,Zn,c,Fn,c,Sn,c分别表示第n条训练语音数据第c个高斯的零阶、一阶、二阶统计量;Tn为第n条训练语音数据的总帧数;训练语音数据每帧提取一个特征,因此总帧数Tn等于该条训练语音数据的总特征数;是第n条训练语音数据第t帧的特征;μubm,c是通用背景模型的第c个高斯的均值,c=1,2,…,C,C为通用背景模型总的高斯个数;是属于第c个高斯产生的概率,即:
式中,ωubm,c是通用背景模型的第c个高斯所占的权重,∑c为通用背景模型的第c个高斯的协方差矩阵;
1.2.2)提取每条训练语音数据的i-vector,表达式如下:
ωtrain,n=(I+TtZn∑-1T)-1Tt∑-1Fn
式中,ωtrain,n为第n条训练语音数据的i-vector,T为总体变化子空间矩阵,∑是对角块为∑c的协方差矩阵,Zn是对角块为Zn,cI的对角阵,Fn是由Fn,c串接而成的向量;
1.3)根据每个说话人对应的训练语音数据,提取每个说话人的i-vector,记为ωs,表达式如下:
ωs=(I+TtZs∑-1T)-1Tt∑-1Fs
式中,ωs为第s个说话人的i-vector,s=1,2,…,S;Zs为所有属于说话人s的训练语音数据的Zn之和,Fs为所有属于说话人s的训练语音数据的Fn之和,表达式如下:
1.4)求取Fisher信息矩阵G;具体包括以下步骤:
1.4.1)从所有训练语音数据的特征中随机抽取T个特征,n=1~N,t=1~Tn;令ot表示抽取的特征中的第t个特征,t=1~T;
1.4.2)Fisher信息矩阵G的表达式如下:
1.5)训练鉴别式局部保持映射矩阵A;具体步骤如下:
1.5.1)根据步骤1.4)求得的Fisher信息矩阵G,将所有训练语音数据的i-vector映射到高维上,表达式如下:
1.5.2)为所有训练语音数据构建邻接图,包括同类邻接图和异类近邻邻接图;
构建同类邻接图如果第i条训练语音数据和第j条训练语音数据来自同一个说话人,则将i和j连接起来,否则不连接;
构建异类近邻邻接图计算所有训练语音数据两两之间的距离,第i条训练语音数据和第j条训练语音数据的距离表达式为:||xtrain,i-xtrain,j||2;找出每条训练语音数据相邻最近的k条训练语音数据,1≤k≤N-1;如果第i条训练语音数据和第j条训练语音数据来自不同的说话人,并且第i条训练语音数据是和第j条训练语音数据相邻最近的k条训练语音数据中的一条,或者第j条训练语音数据是和第i条训练语音数据相邻最近的k条训练语音数据中的一条,则将i和j连接起来,否则不连接;
1.5.3)构建连接权重矩阵;
对于同类邻接图构建连接权重矩阵Ww:如果i,j两点相连,则连接权重设为热核连接或直接连接Wω,ij=1;如果i,j两点不相连,则连接权重Wω,ij=0;其中σ为调节热核连接大小的参数;
对于异类近邻邻接图构建连接权重矩阵Wb:如果i,j两点相连,则连接权重设为热核连接或直接连接Wb,ij=1;如果i,j两点不相连,则连接权重Wb,ij=0;
1.5.4)假设从高维xtrain到低维ytrain的映射矩阵为A,降维后ytrain的维度为RA,即ytrain=Axtrain;
如果第i条训练语音数据和第j条训练语音数据来自同一个说话人,则降维后使得ytrain,i和ytrain,j距离尽量小,即:
式中,Lω=Rω-Wω,Rω=diag(Rω,ii),Rω,ii=∑jWω,ij,X=[xtrain,1,xtrain,2,…,xtrain,N];
如果第i条训练语音和第j条训练语音来自不同的说话人,则降维后使得ytrain,i和ytrain,j距离尽量大,即:
式中,Lb=Rb-Wb,Rb=diag(Rb,ii),Rb,ii=∑jWb,ij;
求解:
则XLbXtA=ΛXLωXtA
其中,Λ为广义特征值;
计算矩阵束(XLbXt,XLωXt)的广义特征值Λ,取出其中最大的RA个特征值及其对应的特征向量;RA个特征向量中每个特征向量对应矩阵的一行,组成鉴别式局部保持映射矩阵A;鉴别式局部保持映射矩阵矩阵A训练完毕;
2)说话人确认阶段;具体包括以下步骤:
2.1)获取待测语音数据;
2.2)重复步骤1.2),提取该条待测语音数据的i-vector,记为ωtest;
2.3)选定一个训练语音数据的说话人s,根据距离函数K(ωtest,ωs)=(AGωtest)t(AGωs)计算ωtest和ωs之间的距离;
2.4)设定一个距离阈值并判定:若步骤2.3)计算得到的距离大于或等于设定的距离阈值,则判断待测语音数据不属于说话人s;若步骤2.3)计算得到的距离小于设定距离阈值,则判断待测语音数据属于说话人s;说话人确认完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710812259.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:识别人国籍的方法及装置
- 下一篇:动物语言信息转换与识别的方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置