[发明专利]一种基于后端模型的声纹识别优化方法和相关装置有效
申请号: | 201911303022.4 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111028847B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 郑颖龙;赖蔚蔚;吴广财;郑杰生;高尚;林嘉鑫;周昉昉 | 申请(专利权)人: | 广东电网有限责任公司;广东电力信息科技有限公司 |
主分类号: | G10L17/06 | 分类号: | G10L17/06;G10L25/24;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 510600 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 后端 模型 声纹 识别 优化 方法 相关 装置 | ||
本申请公开了一种基于后端模型的声纹识别优化方法和相关装置,包括:构建声纹识别PLDA模型,声纹识别PLDA模型的目标函数为和分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数;将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。解决了现有的声纹识别系统中,由于数据噪声和数据样本不足,导致基于PLDA的后端模型的两个方差矩阵不准确,使得PLDA模型不能反映实际数据,降低了声纹识别的准确率的技术问题。
技术领域
本申请涉及声纹识别技术领域,尤其涉及一种基于后端模型的声纹识别优化方法和相关装置。
背景技术
声纹识别技术能够从语音中识别出说话人的身份,在用户登录、用户认证和公共安全等领域得到广泛应用。声纹识别主要包含声纹模型训练与声纹识别两个阶段,在声纹模型训练阶段,系统学习如何从一段语音信号中提取有差异性的高维特征向量(称为声纹向量),根据学习到的高维特征向量继续学习判断两段声音的相似性(后端模型识别),因此,实际上在声纹模型训练阶段,会训练两个模型:声纹向量提取模型和后端模型,在声纹识别阶段,系统利用在训练阶段已经训练好的“声纹向量提取模型”和“后端模型”,首先利用声纹向量提取模型对输入的语音信号提取高维特征,然后利用后端模型继续评判两个高维特征向量的相似性。在后端模型中,常使用PLDA模型,假设x是服从高斯分布,并且高斯分布的均值y是另一个均值为m、方差为Φb的高斯分布,方差为Φw,其PLDA模型的数学表示为:P(x|y)=N(x|y,Φw),p(y)=N(y|m,Φb),PLDA模型的参数可以通过EM算法从训练数据中得到。但是由于在实际应用中,数据噪声和数据样本不够等原因导致训练出来的两个方差矩阵Φb和Φw并不准确,导致PLDA模型不能反映实际数据的情况,降低了声纹识别的准确率。
发明内容
本申请提供了一种基于后端模型的声纹识别优化方法和相关装置,用于解决现有的声纹识别系统中,由于数据噪声和数据样本不足,导致基于PLDA的后端模型的两个方差矩阵不准确,使得PLDA模型不能反映实际数据,降低了声纹识别的准确率的技术问题。
有鉴于此,本申请第一方面提供了一种基于后端模型的声纹识别优化方法,包括:
构建声纹识别PLDA模型,所述声纹识别PLDA模型的目标函数为和分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数;
将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别。
可选地,所述将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别,之前还包括:
提取所述目标语音数据中的梅尔频率倒谱系数特征;
基于高维向量提取模型从所述梅尔频率倒谱系数特征中提取预置长度的高维特征向量。
可选地,所述提取所述目标语音数据中的梅尔频率倒谱系数特征,之前还包括:
对所述目标语音数据进行预处理,剔除无效语音数据。
可选地,所述对所述目标语音数据进行预处理,剔除无效语音数据,包括:
基于时频分析的方法对所述目标语音数据进行分段;
基于高斯混合模型判断每一段语音数据是否属于无效语音数据,若是,则将无效语音数据剔除。
本申请第二方面提供了一种基于后端模型的声纹识别优化装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司;广东电力信息科技有限公司,未经广东电网有限责任公司;广东电力信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911303022.4/2.html,转载请声明来源钻瓜专利网。