[发明专利]一种融合分布对齐和对抗学习的无监督跨域声纹识别方法有效
申请号: | 202110277452.4 | 申请日: | 2021-03-15 |
公开(公告)号: | CN112820301B | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 赵庆卫;方策;王文超;张鹏远;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/14;G10L17/18;G06N3/04;G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 分布 对齐 对抗 学习 监督 声纹 识别 方法 | ||
1.一种融合分布对齐和对抗学习的无监督跨域声纹识别模型训练方法,其特征在于,包括以下步骤:
分别从源领域和目标领域的语音中提取多维声学特征;
将提取的多维声学特征分别打上领域标签,其中源领域的数据有说话者标签,目标领域的数据没有说话者标签;
将提取的源领域和目标领域的多维声学特征作为训练数据依次送入神经网络模型,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;最后根据目标函数计算整个系统的损失函数;
利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;
经过多次迭代直至收敛,模型训练完成;
源领域的分类损失表达式为:
其中,LC是源领域分类任务的交叉熵(Cross Entropy)损失函数,C代表多分类器;交叉熵损失函数的定义如下:
其中,输入训练样本为对应的标签为K是分类的类别数,指的是输入到模型的源领域训练数据包含的说话者总数,yi是真实标签,pi是模型输出的预测值。
2.根据权利要求1所述的方法,其特征在于,所述神经网络采用卷积神经网络为框架,所述卷积神经网络采用标准的50层的ResNet,即ResNet-50;在训练的开始搭建初始化的ResNet-50。
3.根据权利要求1所述的方法,其特征在于,源领域和目标领域的对抗损失表达式为:
其中,Fs和Ft分别是源领域和目标领域的特征提取器,D是可以区分特征来自源领域还是目标领域的二分类器。
4.根据权利要求1所述的方法,其特征在于,定义源领域特征和目标领域特征之间的相关对齐的损失函数为:
其中,Cs和Ct分别表示源领域数据特征和目标领域数据特征的协方差矩阵,所述特征指的是从神经网络模型最后提取出的表征说话人身份的embedding向量,d表示特征的维度,表示矩阵的F-范数,一个m行n列的矩阵M,它的F-范数的定义是:
而Cs和Ct的计算过程如下,其中Ns是训练过程中送入神经网络模型的每一批源领域数据的总数,Nt是训练过程中送入神经网络模型每一批目标领域数据的总数:
5.根据权利要求1所述的方法,其特征在于,目标函数为:
其中,λ和σ分别是对抗损失函数和分布匹配损失的权重,是需要训练的超参数。
6.根据权利要求1所述的方法,其特征在于,所述多维声学特征为64维声学特征Fbank。
7.根据权利要求1所述的方法,其特征在于,所述将提取的多维声学特征分别打上领域标签步骤,包括:
对源领域和目标领域分别打上领域标签,所述源领域的领域标签和所述目标领域的领域标签通过不同的数字来表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110277452.4/1.html,转载请声明来源钻瓜专利网。