[发明专利]一种鉴别式局部信息距离保持映射的说话人确认方法在审

专利信息
申请号: 201710812259.X 申请日: 2017-09-11
公开(公告)号: CN107633845A 公开(公告)日: 2018-01-26
发明(设计)人: 何亮;陈仙红;徐灿;刘加 申请(专利权)人: 清华大学
主分类号: G10L17/04 分类号: G10L17/04;G10L17/08
代理公司: 北京清亦华知识产权代理事务所(普通合伙)11201 代理人: 廖元秋
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种鉴别式局部信息距离保持映射的说话人确认方法,属于声纹识别、模式识别与机器学习领域。该方法在训练阶段获取训练语音数据并提取每条训练语音数据的i‑vector;根据每个说话人对应的训练语音数据,提取每个说话人的i‑vector;训练得到鉴别式局部保持映射矩阵;在说话人确认阶段,获取待测语音数据并选定一个训练语音数据的说话人,计算待测语音数据与该说话人的i‑vector距离,若该距离小于设定的距离阈值,则判断待测语音数据属于说话人;说话人确认完成。本发明适用性强,且着重考虑了异类近邻点,增强对易混说话人语音的鉴别,具有更好的区分能力,提高说话人确认的准确率。
搜索关键词: 一种 鉴别 局部 信息 距离 保持 映射 说话 确认 方法
【主权项】:
一种鉴别式局部信息距离保持映射的说话人确认方法,其特征在于,包括以下步骤:1)训练阶段;具体包括以下步骤:1.1)获取训练语音数据;训练语音数据对应的说话人个数为S,S≥500,每个说话人的训练语音数据大于等于5条,总共获取N条训练语音数据,N≥2500,每条训练语音数据时长大于30秒,每个说话人对应的训练语音数据为已知;1.2)提取步骤1.1)获取的每条训练语音数据的i‑vector,记为ωtrain,n,n=1,2,…,N;具体步骤如下:1.2.1)提取每条训练语音数据的Baum‑Welch统计量,表达式如下:Zn,c=Σtn=1Tnγubm,c(otn)]]>Fn,c=Σtn=1Tnγubm,c(otn)(otn-μubm,c)]]>Sn,c=diag(Σtn=1Tnγubm,c(otn)(otn-μubm,c)(otn-μubm,c)t)]]>式中,Zn,c,Fn,c,Sn,c分别表示第n条训练语音数据第c个高斯的零阶、一阶、二阶统计量;Tn为第n条训练语音数据的总帧数;训练语音数据每帧提取一个特征,因此总帧数Tn等于该条训练语音数据的总特征数;是第n条训练语音数据第t帧的特征;μubm,c是通用背景模型的第c个高斯的均值,c=1,2,…,C,C为通用背景模型总的高斯个数;是属于第c个高斯产生的概率,即:式中,ωubm,c是通用背景模型的第c个高斯所占的权重,∑c为通用背景模型的第c个高斯的协方差矩阵;1.2.2)提取每条训练语音数据的i‑vector,表达式如下:ωtrain,n=(I+TtZn∑‑1T)‑1Tt∑‑1Fn式中,ωtrain,n为第n条训练语音数据的i‑vector,T为总体变化子空间矩阵,∑是对角块为∑c的协方差矩阵,Zn是对角块为Zn,cI的对角阵,Fn是由Fn,c串接而成的向量;1.3)根据每个说话人对应的训练语音数据,提取每个说话人的i‑vector,记为ωs,表达式如下:ωs=(I+TtZs∑‑1T)‑1Tt∑‑1Fs式中,ωs为第s个说话人的i‑vector,s=1,2,…,S;Zs为所有属于说话人s的训练语音数据的Zn之和,Fs为所有属于说话人s的训练语音数据的Fn之和,表达式如下:Zs=Σn∈sZn]]>Fs=Σn∈sFn]]>1.4)求取Fisher信息矩阵G;具体包括以下步骤:1.4.1)从所有训练语音数据的特征中随机抽取T个特征,n=1~N,t=1~Tn;令ot表示抽取的特征中的第t个特征,t=1~T;1.4.2)Fisher信息矩阵G的表达式如下:G=Σi=1CΣj=1CTitΣi-1[Σt=1Tγubm,i(ot)γubm,j(ot)(ot-μubm,i)(ot-μubm,i)tΣt=1Tγubm,i(ot)γubm,j(ot)]Σj-1Tjt]]>1.5)训练鉴别式局部保持映射矩阵A;具体步骤如下:1.5.1)根据步骤1.4)求得的Fisher信息矩阵G,将所有训练语音数据的i‑vector映射到高维上,表达式如下:xtrain,n=G12ωtrain,n]]>1.5.2)为所有训练语音数据构建邻接图,包括同类邻接图和异类近邻邻接图;构建同类邻接图如果第i条训练语音数据和第j条训练语音数据来自同一个说话人,则将i和j连接起来,否则不连接;构建异类近邻邻接图计算所有训练语音数据两两之间的距离,第i条训练语音数据和第j条训练语音数据的距离表达式为:||xtrain,i‑xtrain,j||2;找出每条训练语音数据相邻最近的k条训练语音数据,1≤k≤N‑1;如果第i条训练语音数据和第j条训练语音数据来自不同的说话人,并且第i条训练语音数据是和第j条训练语音数据相邻最近的k条训练语音数据中的一条,或者第j条训练语音数据是和第i条训练语音数据相邻最近的k条训练语音数据中的一条,则将i和j连接起来,否则不连接;1.5.3)构建连接权重矩阵;对于同类邻接图构建连接权重矩阵Ww:如果i,j两点相连,则连接权重设为热核连接或直接连接Wω,ij=1;如果i,j两点不相连,则连接权重Wω,ij=0;其中σ为调节热核连接大小的参数;对于异类近邻邻接图构建连接权重矩阵Wb:如果i,j两点相连,则连接权重设为热核连接或直接连接Wb,ij=1;如果i,j两点不相连,则连接权重Wb,ij=0;1.5.4)假设从高维xtrain到低维ytrain的映射矩阵为A,降维后ytrain的维度为RA,即ytrain=Axtrain;如果第i条训练语音数据和第j条训练语音数据来自同一个说话人,则降维后使得ytrain,i和ytrain,j距离尽量小,即:min12Σi,jWw,ij||ytrain,i-ytrain,j||2=min12Σi,jWw,ij||Axtrain,i-Axtrain,j||2=min[ΣiAtxtrain,iRw,iixtrain,jA-ΣijAtxtrain,iWw,ijxtrain,jA]=minAtXLwXtA]]>式中,Lω=Rω‑Wω,Rω=diag(Rω,ii),Rω,ii=∑jWω,ij,X=[xtrain,1,xtrain,2,…,xtrain,N];如果第i条训练语音和第j条训练语音来自不同的说话人,则降维后使得ytrain,i和ytrain,j距离尽量大,即:max12Σi,jWb,ij||ytrain,i-ytrain,j||2=maxAtXLbXtA,]]>式中,Lb=Rb‑Wb,Rb=diag(Rb,ii),Rb,ii=∑jWb,ij;求解:argAmaxAtXLbXtAAtXLwXtA]]>则XLbXtA=ΛXLωXtA其中,Λ为广义特征值;计算矩阵束(XLbXt,XLωXt)的广义特征值Λ,取出其中最大的RA个特征值及其对应的特征向量;RA个特征向量中每个特征向量对应矩阵的一行,组成鉴别式局部保持映射矩阵A;鉴别式局部保持映射矩阵矩阵A训练完毕;2)说话人确认阶段;具体包括以下步骤:2.1)获取待测语音数据;2.2)重复步骤1.2),提取该条待测语音数据的i‑vector,记为ωtest;2.3)选定一个训练语音数据的说话人s,根据距离函数K(ωtest,ωs)=(AGωtest)t(AGωs)计算ωtest和ωs之间的距离;2.4)设定一个距离阈值并判定:若步骤2.3)计算得到的距离大于或等于设定的距离阈值,则判断待测语音数据不属于说话人s;若步骤2.3)计算得到的距离小于设定距离阈值,则判断待测语音数据属于说话人s;说话人确认完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710812259.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top