[发明专利]基于总变化空间与分类器联合优化的说话人身份识别方法有效
申请号: | 201910439064.4 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110148417B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 韩纪庆;陈晨;郑贵滨;郑铁然 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G10L17/12 | 分类号: | G10L17/12;G10L17/04;G10L25/24 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 刘冰 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于总变化空间与分类器联合优化的说话人身份识别方法,它属于说话人识别技术领域。本发明解决了目前的总变化空间估计方法对说话人身份识别的等错误率高的问题。本发明首先求得训练集均值超矢量在初始总变化空间上的表示;然后对该表示进行长度规整,并输入分类器PLDA;接着在分类器PLDA的监督下,更新分类器的参数与总变化空间的参数,重复上述步骤,直至达到设置的最大迭代次数,获得最终的分类器参数与总变化空间参数;测试时,利用测试语音的均值超矢量和目标说话人的均值超矢量,计算其在总变化空间上的表示,然后对该表示进行长度规整,并计算其在分类器上的联合概率密度作为最终分类的依据。本发明可以应用于说话人识别技术领域。 | ||
搜索关键词: | 基于 变化 空间 分类 联合 优化 说话 人身 识别 方法 | ||
【主权项】:
1.基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,该方法包括以下步骤:步骤一、将训练集中每段语音的梅尔倒谱系数输入通用背景模型,并在通用背景模型上采用最大后验概率方法进行自适应,获得每段语音对应的高斯混合模型,利用高斯混合模型获得训练集中每段语音对应的均值超矢量;则训练集中每段语音对应的均值超矢量组成均值超矢量集合;步骤二、计算训练集中全部段语音对应的均值超矢量的均值m及训练集中全部段语音对应的均值超矢量的协方差矩阵Φ;步骤三、随机初始化分类器概率线性判别分析模型和总变化空间的参数分别为{Λ,Ψ}和T;步骤四、利用均值超矢量集合、均值超矢量的均值m、均值超矢量的协方差矩阵Φ以及总变化空间参数T,计算总变化空间中训练集的每段语音对应的i‑vector特征的后验精度矩阵Lw与后验均值
步骤五、分别对每段语音对应的i‑vector特征的后验均值
进行长度规整,获得长度规整后每段语音对应的i‑vector特征;步骤六、利用长度规整后每段语音对应的i‑vector特征以及分类器概率线性判别分析模型的参数{Λ,Ψ},计算出分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值
和后验相关矩阵
步骤七、利用长度规整后每段语音对应的i‑vector特征、分类器概率线性判别分析模型中隐变量θs的后验均值
和后验相关矩阵
获得更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′};步骤八、利用均值超矢量集合、均值超矢量的均值m、每段语音对应的i‑vector特征的后验均值
长度规整后每段语音对应的i‑vector特征、更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′}以及分类器概率线性判别分析模型中隐变量θs的后验均值
计算更新后的总变化空间的参数T′;步骤九、利用更新后的分类器概率线性判别分析模型参数{Λ′,Ψ′}替换步骤六中的分类器概率线性判别分析模型参数{Λ,Ψ},利用更新后的总变化空间参数T′替换步骤四中的总变化空间参数T,来重复步骤四至步骤八的过程,直至达到设置的最大迭代次数时停止迭代,获得最终的分类器概率线性判别分析模型的参数{Λ0,Ψ0}和总变化空间的参数T0;步骤十:对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget;则分别计算出均值超矢量Mtest与均值超矢量Mtarget在总变化空间上的表示,获得该段测试语音对应的i‑vector特征wtest以及目标说话人对应的i‑vector特征wtarget;步骤十一:分别对步骤十获得的i‑vector特征wtest与wtarget进行长度规整,获得长度规整后的i‑vector特征
与
步骤十二:计算长度规整后的i‑vector特征
和
在分类器概率线性判别分析模型上的联合概率密度,将求得的联合概率密度作为匹配得分Stest,target;步骤十三:将步骤十二的匹配得分Stest,target与阈值S′进行比较,若匹配得分Stest,target大于等于阈值S′,则长度规整后的i‑vector特征
对应的测试集语音段来自于目标说话人,若匹配得分Stest,target小于阈值S′,则长度规整后的i‑vector特征
对应的测试集语音段不是来自于目标说话人;同理,即判断出测试集中的其他段语音是否来自于目标说话人。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910439064.4/,转载请声明来源钻瓜专利网。