[发明专利]一种鉴别式局部信息距离保持映射的说话人确认方法在审

专利信息
申请号: 201710812259.X 申请日: 2017-09-11
公开(公告)号: CN107633845A 公开(公告)日: 2018-01-26
发明(设计)人: 何亮;陈仙红;徐灿;刘加 申请(专利权)人: 清华大学
主分类号: G10L17/04 分类号: G10L17/04;G10L17/08
代理公司: 北京清亦华知识产权代理事务所(普通合伙)11201 代理人: 廖元秋
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 鉴别 局部 信息 距离 保持 映射 说话 确认 方法
【权利要求书】:

1.一种鉴别式局部信息距离保持映射的说话人确认方法,其特征在于,包括以下步骤:

1)训练阶段;具体包括以下步骤:

1.1)获取训练语音数据;训练语音数据对应的说话人个数为S,S≥500,每个说话人的训练语音数据大于等于5条,总共获取N条训练语音数据,N≥2500,每条训练语音数据时长大于30秒,每个说话人对应的训练语音数据为已知;

1.2)提取步骤1.1)获取的每条训练语音数据的i-vector,记为ωtrain,n,n=1,2,…,N;具体步骤如下:

1.2.1)提取每条训练语音数据的Baum-Welch统计量,表达式如下:

Zn,c=Σtn=1Tnγubm,c(otn)]]>

Fn,c=Σtn=1Tnγubm,c(otn)(otn-μubm,c)]]>

Sn,c=diag(Σtn=1Tnγubm,c(otn)(otn-μubm,c)(otn-μubm,c)t)]]>

式中,Zn,c,Fn,c,Sn,c分别表示第n条训练语音数据第c个高斯的零阶、一阶、二阶统计量;Tn为第n条训练语音数据的总帧数;训练语音数据每帧提取一个特征,因此总帧数Tn等于该条训练语音数据的总特征数;是第n条训练语音数据第t帧的特征;μubm,c是通用背景模型的第c个高斯的均值,c=1,2,…,C,C为通用背景模型总的高斯个数;是属于第c个高斯产生的概率,即:

式中,ωubm,c是通用背景模型的第c个高斯所占的权重,∑c为通用背景模型的第c个高斯的协方差矩阵;

1.2.2)提取每条训练语音数据的i-vector,表达式如下:

ωtrain,n=(I+TtZn-1T)-1Tt-1Fn

式中,ωtrain,n为第n条训练语音数据的i-vector,T为总体变化子空间矩阵,∑是对角块为∑c的协方差矩阵,Zn是对角块为Zn,cI的对角阵,Fn是由Fn,c串接而成的向量;

1.3)根据每个说话人对应的训练语音数据,提取每个说话人的i-vector,记为ωs,表达式如下:

ωs=(I+TtZs-1T)-1Tt-1Fs

式中,ωs为第s个说话人的i-vector,s=1,2,…,S;Zs为所有属于说话人s的训练语音数据的Zn之和,Fs为所有属于说话人s的训练语音数据的Fn之和,表达式如下:

Zs=Σn∈sZn]]>

Fs=Σn∈sFn]]>

1.4)求取Fisher信息矩阵G;具体包括以下步骤:

1.4.1)从所有训练语音数据的特征中随机抽取T个特征,n=1~N,t=1~Tn;令ot表示抽取的特征中的第t个特征,t=1~T;

1.4.2)Fisher信息矩阵G的表达式如下:

G=Σi=1CΣj=1CTitΣi-1[Σt=1Tγubm,i(ot)γubm,j(ot)(ot-μubm,i)(ot-μubm,i)tΣt=1Tγubm,i(ot)γubm,j(ot)]Σj-1Tjt]]>

1.5)训练鉴别式局部保持映射矩阵A;具体步骤如下:

1.5.1)根据步骤1.4)求得的Fisher信息矩阵G,将所有训练语音数据的i-vector映射到高维上,表达式如下:

xtrain,n=G12ωtrain,n]]>

1.5.2)为所有训练语音数据构建邻接图,包括同类邻接图和异类近邻邻接图;

构建同类邻接图如果第i条训练语音数据和第j条训练语音数据来自同一个说话人,则将i和j连接起来,否则不连接;

构建异类近邻邻接图计算所有训练语音数据两两之间的距离,第i条训练语音数据和第j条训练语音数据的距离表达式为:||xtrain,i-xtrain,j||2;找出每条训练语音数据相邻最近的k条训练语音数据,1≤k≤N-1;如果第i条训练语音数据和第j条训练语音数据来自不同的说话人,并且第i条训练语音数据是和第j条训练语音数据相邻最近的k条训练语音数据中的一条,或者第j条训练语音数据是和第i条训练语音数据相邻最近的k条训练语音数据中的一条,则将i和j连接起来,否则不连接;

1.5.3)构建连接权重矩阵;

对于同类邻接图构建连接权重矩阵Ww:如果i,j两点相连,则连接权重设为热核连接或直接连接Wω,ij=1;如果i,j两点不相连,则连接权重Wω,ij=0;其中σ为调节热核连接大小的参数;

对于异类近邻邻接图构建连接权重矩阵Wb:如果i,j两点相连,则连接权重设为热核连接或直接连接Wb,ij=1;如果i,j两点不相连,则连接权重Wb,ij=0;

1.5.4)假设从高维xtrain到低维ytrain的映射矩阵为A,降维后ytrain的维度为RA,即ytrain=Axtrain

如果第i条训练语音数据和第j条训练语音数据来自同一个说话人,则降维后使得ytrain,i和ytrain,j距离尽量小,即:

min12Σi,jWw,ij||ytrain,i-ytrain,j||2=min12Σi,jWw,ij||Axtrain,i-Axtrain,j||2=min[ΣiAtxtrain,iRw,iixtrain,jA-ΣijAtxtrain,iWw,ijxtrain,jA]=minAtXLwXtA]]>

式中,Lω=Rω-Wω,Rω=diag(Rω,ii),Rω,ii=∑jWω,ij,X=[xtrain,1,xtrain,2,…,xtrain,N];

如果第i条训练语音和第j条训练语音来自不同的说话人,则降维后使得ytrain,i和ytrain,j距离尽量大,即:

max12Σi,jWb,ij||ytrain,i-ytrain,j||2=maxAtXLbXtA,]]>

式中,Lb=Rb-Wb,Rb=diag(Rb,ii),Rb,ii=∑jWb,ij

求解:

argAmaxAtXLbXtAAtXLwXtA]]>

则XLbXtA=ΛXLωXtA

其中,Λ为广义特征值;

计算矩阵束(XLbXt,XLωXt)的广义特征值Λ,取出其中最大的RA个特征值及其对应的特征向量;RA个特征向量中每个特征向量对应矩阵的一行,组成鉴别式局部保持映射矩阵A;鉴别式局部保持映射矩阵矩阵A训练完毕;

2)说话人确认阶段;具体包括以下步骤:

2.1)获取待测语音数据;

2.2)重复步骤1.2),提取该条待测语音数据的i-vector,记为ωtest

2.3)选定一个训练语音数据的说话人s,根据距离函数K(ωtest,ωs)=(AGωtest)t(AGωs)计算ωtest和ωs之间的距离;

2.4)设定一个距离阈值并判定:若步骤2.3)计算得到的距离大于或等于设定的距离阈值,则判断待测语音数据不属于说话人s;若步骤2.3)计算得到的距离小于设定距离阈值,则判断待测语音数据属于说话人s;说话人确认完成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710812259.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top