[发明专利]一种基于后端模型的声纹识别优化方法和相关装置有效

申请号：	201911303022.4	申请日：	2019-12-17
公开（公告）号：	CN111028847B	公开（公告）日：	2022-09-09
发明（设计）人：	郑颖龙;赖蔚蔚;吴广财;郑杰生;高尚;林嘉鑫;周昉昉	申请（专利权）人：	广东电网有限责任公司;广东电力信息科技有限公司
主分类号：	G10L17/06	分类号：	G10L17/06;G10L25/24;G06K9/62
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	黄忠
地址：	510600 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于后端模型声纹识别优化方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于后端模型的声纹识别优化方法和相关装置，包括：构建声纹识别PLDA模型，声纹识别PLDA模型的目标函数为和分别为方差矩阵Φ_b和方差矩阵Φ_w的逆矩阵，λ和β为超级参数；将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。解决了现有的声纹识别系统中，由于数据噪声和数据样本不足，导致基于PLDA的后端模型的两个方差矩阵不准确，使得PLDA模型不能反映实际数据，降低了声纹识别的准确率的技术问题。

技术领域

本申请涉及声纹识别技术领域，尤其涉及一种基于后端模型的声纹识别优化方法和相关装置。

背景技术

声纹识别技术能够从语音中识别出说话人的身份，在用户登录、用户认证和公共安全等领域得到广泛应用。声纹识别主要包含声纹模型训练与声纹识别两个阶段，在声纹模型训练阶段，系统学习如何从一段语音信号中提取有差异性的高维特征向量(称为声纹向量)，根据学习到的高维特征向量继续学习判断两段声音的相似性(后端模型识别)，因此，实际上在声纹模型训练阶段，会训练两个模型：声纹向量提取模型和后端模型，在声纹识别阶段，系统利用在训练阶段已经训练好的“声纹向量提取模型”和“后端模型”，首先利用声纹向量提取模型对输入的语音信号提取高维特征，然后利用后端模型继续评判两个高维特征向量的相似性。在后端模型中，常使用PLDA模型，假设x是服从高斯分布，并且高斯分布的均值y是另一个均值为m、方差为Φ_b的高斯分布，方差为Φ_w，其PLDA模型的数学表示为：P(x|y)＝N(x|y,Φ_w)，p(y)＝N(y|m,Φ_b)，PLDA模型的参数可以通过EM算法从训练数据中得到。但是由于在实际应用中，数据噪声和数据样本不够等原因导致训练出来的两个方差矩阵Φ_b和Φ_w并不准确，导致PLDA模型不能反映实际数据的情况，降低了声纹识别的准确率。

发明内容

本申请提供了一种基于后端模型的声纹识别优化方法和相关装置，用于解决现有的声纹识别系统中，由于数据噪声和数据样本不足，导致基于PLDA的后端模型的两个方差矩阵不准确，使得PLDA模型不能反映实际数据，降低了声纹识别的准确率的技术问题。

有鉴于此，本申请第一方面提供了一种基于后端模型的声纹识别优化方法，包括：

构建声纹识别PLDA模型，所述声纹识别PLDA模型的目标函数为和分别为方差矩阵Φ_b和方差矩阵Φ_w的逆矩阵，λ和β为超级参数；

将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别。

可选地，所述将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别，之前还包括：

提取所述目标语音数据中的梅尔频率倒谱系数特征；

基于高维向量提取模型从所述梅尔频率倒谱系数特征中提取预置长度的高维特征向量。

可选地，所述提取所述目标语音数据中的梅尔频率倒谱系数特征，之前还包括：

对所述目标语音数据进行预处理，剔除无效语音数据。

可选地，所述对所述目标语音数据进行预处理，剔除无效语音数据，包括：

基于时频分析的方法对所述目标语音数据进行分段；