[发明专利]一种鉴别式局部信息距离保持映射的说话人确认方法在审

申请号：	201710812259.X	申请日：	2017-09-11
公开（公告）号：	CN107633845A	公开（公告）日：	2018-01-26
发明（设计）人：	何亮;陈仙红;徐灿;刘加	申请（专利权）人：	清华大学
主分类号：	G10L17/04	分类号：	G10L17/04;G10L17/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙)11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种鉴别局部信息距离保持映射说话确认方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种鉴别式局部信息距离保持映射的说话人确认方法，其特征在于，包括以下步骤：

1)训练阶段；具体包括以下步骤：

1.1)获取训练语音数据；训练语音数据对应的说话人个数为S，S≥500，每个说话人的训练语音数据大于等于5条，总共获取N条训练语音数据，N≥2500，每条训练语音数据时长大于30秒，每个说话人对应的训练语音数据为已知；

1.2)提取步骤1.1)获取的每条训练语音数据的i-vector，记为ω_train，n，n＝1，2，…，N；具体步骤如下：

1.2.1)提取每条训练语音数据的Baum-Welch统计量，表达式如下：

Zn,c=Σtn=1Tnγubm,c(otn)]]>

Fn,c=Σtn=1Tnγubm,c(otn)(otn-μubm,c)]]>

Sn,c=diag(Σtn=1Tnγubm,c(otn)(otn-μubm,c)(otn-μubm,c)t)]]>

式中，Z_n，c，F_n，c，S_n，c分别表示第n条训练语音数据第c个高斯的零阶、一阶、二阶统计量；T_n为第n条训练语音数据的总帧数；训练语音数据每帧提取一个特征，因此总帧数T_n等于该条训练语音数据的总特征数；是第n条训练语音数据第t帧的特征；μ_ubm，c是通用背景模型的第c个高斯的均值，c＝1，2，…，C，C为通用背景模型总的高斯个数；是属于第c个高斯产生的概率，即：

式中，ω_ubm，c是通用背景模型的第c个高斯所占的权重，∑_c为通用背景模型的第c个高斯的协方差矩阵；

1.2.2)提取每条训练语音数据的i-vector，表达式如下：

ω_train，n＝(I+T^tZ_n∑^-1T)^-1T^t∑^-1F_n

式中，ω_train，n为第n条训练语音数据的i-vector，T为总体变化子空间矩阵，∑是对角块为∑_c的协方差矩阵，Z_n是对角块为Z_n，cI的对角阵，F_n是由F_n，c串接而成的向量；

1.3)根据每个说话人对应的训练语音数据，提取每个说话人的i-vector，记为ω_s，表达式如下：

ω_s＝(I+T^tZ_s∑^-1T)^-1T^t∑^-1F_s

式中，ω_s为第s个说话人的i-vector，s＝1,2,…，S；Z_s为所有属于说话人s的训练语音数据的Z_n之和，F_s为所有属于说话人s的训练语音数据的F_n之和，表达式如下：

Zs=Σn&Element;sZn]]>

Fs=Σn&Element;sFn]]>

1.4)求取Fisher信息矩阵G；具体包括以下步骤：

1.4.1)从所有训练语音数据的特征中随机抽取T个特征，n＝1～N，t＝1～Tn；令o_t表示抽取的特征中的第t个特征，t＝1～T；

1.4.2)Fisher信息矩阵G的表达式如下：

G=Σi=1CΣj=1CTitΣi-1[Σt=1Tγubm,i(ot)γubm,j(ot)(ot-μubm,i)(ot-μubm,i)tΣt=1Tγubm,i(ot)γubm,j(ot)]Σj-1Tjt]]>

1.5)训练鉴别式局部保持映射矩阵A；具体步骤如下：

1.5.1)根据步骤1.4)求得的Fisher信息矩阵G，将所有训练语音数据的i-vector映射到高维上，表达式如下：

xtrain,n=G12ωtrain,n]]>

1.5.2)为所有训练语音数据构建邻接图，包括同类邻接图和异类近邻邻接图；

构建同类邻接图如果第i条训练语音数据和第j条训练语音数据来自同一个说话人，则将i和j连接起来，否则不连接；

构建异类近邻邻接图计算所有训练语音数据两两之间的距离，第i条训练语音数据和第j条训练语音数据的距离表达式为：||x_train，i-x_train，j||²；找出每条训练语音数据相邻最近的k条训练语音数据，1≤k≤N-1；如果第i条训练语音数据和第j条训练语音数据来自不同的说话人，并且第i条训练语音数据是和第j条训练语音数据相邻最近的k条训练语音数据中的一条，或者第j条训练语音数据是和第i条训练语音数据相邻最近的k条训练语音数据中的一条，则将i和j连接起来，否则不连接；

1.5.3)构建连接权重矩阵；

对于同类邻接图构建连接权重矩阵W_w：如果i，j两点相连，则连接权重设为热核连接或直接连接W_ω，ij＝1；如果i，j两点不相连，则连接权重W_ω，ij＝0；其中σ为调节热核连接大小的参数；

对于异类近邻邻接图构建连接权重矩阵W_b：如果i，j两点相连，则连接权重设为热核连接或直接连接W_b，ij＝1；如果i，j两点不相连，则连接权重W_b，ij＝0；

1.5.4)假设从高维x_train到低维y_train的映射矩阵为A，降维后y_train的维度为R_A，即y_train＝Ax_train；

如果第i条训练语音数据和第j条训练语音数据来自同一个说话人，则降维后使得y_train，i和y_train，j距离尽量小，即：

min12Σi,jWw,ij||ytrain,i-ytrain,j||2=min12Σi,jWw,ij||Axtrain,i-Axtrain,j||2=min[ΣiAtxtrain,iRw,iixtrain,jA-ΣijAtxtrain,iWw,ijxtrain,jA]=minAtXLwXtA]]>