[发明专利]一种说话人标记方法在审

申请号：	201710817534.7	申请日：	2017-09-12
公开（公告）号：	CN107452403A	公开（公告）日：	2017-12-08
发明（设计）人：	陈仙红;何亮;徐灿;刘加	申请（专利权）人：	清华大学
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/27
代理公司：	北京清亦华知识产权代理事务所(普通合伙)11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种说话标记方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种说话人标记方法，其特征在于，分为i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段、先验概率初始化阶段和基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段三个阶段，该方法包括以下步骤：

1)i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段；具体步骤如下：

1-1)获取一条待测语音数据X，待测语音数据中总共的说话人个数S已知，S≥2；

1-2)对待测语音数据X提取维数F＝40的感知线性预测特征，并进行活动语音检测，将待测语音数据中的静音段删除；

1-3)将去除静音段后的待测语音数据X均匀分割成长度固定为1s的片段记为x₁，…x_m…，x_M；其中M代表片段总数；每个片段x_m包含N帧，x_mt表示片段x_m的第t帧的特征，t＝1…N；

1-4)对于每个片段x_m，提取该片段相应的i-vector记为w′_m，表达式如下：

μ_m＝μ_ubm+Tω′_m

其中，μ_m是根据x_m计算得到的均值超向量，μ_ubm为通用背景模型的均值超向量，通用背景模型的高斯总个数为C＝512，说话人因子维数为D＝300，T为CF×D＝512*40×300维的总体变化子空间矩阵；

1-5)利用概率线性鉴别分析对步骤1-4)得到的任意两个i-vector进行打分，得到所有片段i-vector两两之间的距离；具体步骤如下：

1-5-1)每个片段的i-vectorw′_m表达式如下：

w′_m＝μ+Φp_m+ε_m

其中μ是所有片段i-vector的均值，Φ是维度为300×150的说话人子空间，p_m是服从标准正态分布的隐变量，是噪声；

1-5-2)通过计算对数似然比，求得任意两个i-vectorw′_i和w′_j之间的相似度：

其中θ_tar表示w′_i和w′_j来自同一个说话人，θ_non表示w′_i和w′_j来自不同的说话人；

1-5-3)通过步骤1-5-2)得到的对数似然比R(ω′_i，ω′_j)，计算w′_i和w′_j之间的距离为：

1-6)对所有片段i-vector两两之间的距离进行凝聚层次聚类；具体步骤如下：

1-6-1)将每个片段的i-vector当作一个独立的类，共得到M个类；

1-6-2)将所有距离d_ij中最小值对应的两个片段的i-vector的类聚在一起，合并成一个新类；

1-6-3)计算步骤1-6-2)得到的新类中所有i-vector的均值，用该均值表示新类的i-vector，然后重复步骤1-5-2)和1-5-3)，分别计算该新类的i-vector到其他每个类的的i-vector的距离；

1-6-4)判断类的个数是否等于说话人个数S：如果不相等，则重新返回步骤1-6-2)；如果相等，则凝聚层次聚类结束，最后聚成S个类代表S个说话人，每个类代表一个说话人，将S个类随机编号为1,2,..s,..S，如果片段x_m属于类s，那么x_m就属于说话人s，即x_m∈s；

2)先验概率初始化阶段；分为硬先验计算和软先验计算两种方法，具体如下：

2-1)硬先验计算；

根据步骤1)的结果，如果x_m∈s，则赋予片段m属于说话人s的先验概率q_ms的概率值为q，0.5＜q＜1，即：

其中I(·)为指示函数；

2-2)软先验计算；

根据步骤1)聚类得到的S个类，计算每个说话人s的中心点，表达式如下：

如果片段x_m∈s，则片段x_m距离中心点的距离为：

d_ms＝||w′_m-center_s||₂

将片段x_m属于说话人s的先验概率q_ms定义为：

其中

而片段x_m属于说话人其他说话人的先验概率为：

3)基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段；具体步骤如下：

3-1)隐马尔科夫模型初始化；

隐马尔科夫模型中，每个状态代表一个说话人，状态数等于说话人的总个数S；转移概率为a_ij，初始值为表示从说话人i转移到说话人j的概率；发射概率P(x_m|y_s)，初始值为表示给定一个说话人因子y_s，片段x_m产生的概率；隐马尔科夫模型的初始概率，即初始时刻位于每个状态的概率

3-2)更新说话人因子y_s；具体步骤如下：

3-2-1)提取每个片段x_m的Baum-Welch统计量，表达式如下：

其中分别表示片段x_m对应第c个高斯的零阶、一阶、二阶统计量；μ_ubm，c，c＝1，…，512，是通用背景模型均值超向量μ_ubm中对应第c个高斯的子向量；

γ_mt(c)是x_mt属于第c个高斯的后验概率，diag表示对角化；

3-2-2)提取每个说话人的Baum-Welch统计量；

令为对角块是的CF×CF矩阵；为由连接而成的CF×1超向量；为对角块是的CF×CF矩阵；

说话人s的Baum-Welch统计量表达式为：

3-2-3)计算说话人因子y_s的均值w_s和方差为：

其中，∑是维数为CF×CF的协方差矩阵，对角块为{∑₁，…，∑_C}，∑_c为通用背景模型第c个高斯的协方差矩阵；

3-3)更新发射概率P(x_m|y_s)：

lnP(x_m|y_s)＝G_m+H_ms

其中，

3-4)根据隐马尔科夫模型的参数包括：转移概率a_ij，发射概率P(x_m|y_s)和初始概率π，利用前后项算法计算更新q_ms；

3-5)更新转移概率a_ij；

定义说话人s转移到自身的概率为一个常数const，0.8＜const＜1，则：

a_ii＝const

其中，表示说话人s总共的说话片段数；

3-6)判断迭代是否收敛；

如果是第一次迭代，则直接判断不收敛，重新返回步骤3-2)进行下一次迭代；如果不是第一次迭代，则将本次迭代中，由步骤3-2-3)得到的说话人因子y_s的均值w_s记为将上一次迭代中，由步骤3-2-3)得到的说话人因子y_s的均值w_s记为计算两次迭代中说话人因子均值的相对改变量，表达式如下：

如果相对改变量大于设定阈值，则判断基于软判决的变分贝叶斯隐马尔科夫系统不收敛，重新进行步骤3-2)至3-6)进行下一次迭代；如果相对改变量小于等于设定阈值，则判断基于软判决的变分贝叶斯隐马尔科夫系统收敛，迭代完成，片段x_m所属的说话人通过计算arg max_sq_ms给出，说话人标记结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710817534.7/1.html，转载请声明来源钻瓜专利网。

上一篇：语音播报方法及装置、计算机装置和计算机可读存储介质
下一篇：语音情感识别的优选方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种说话人标记方法在审

专利文献下载