[发明专利]一种融合分布对齐和对抗学习的无监督跨域声纹识别方法有效

专利信息
申请号: 202110277452.4 申请日: 2021-03-15
公开(公告)号: CN112820301B 公开(公告)日: 2023-01-20
发明(设计)人: 赵庆卫;方策;王文超;张鹏远;颜永红 申请(专利权)人: 中国科学院声学研究所
主分类号: G10L17/02 分类号: G10L17/02;G10L17/04;G10L17/14;G10L17/18;G06N3/04;G06N3/08
代理公司: 北京亿腾知识产权代理事务所(普通合伙) 11309 代理人: 陈霁
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 分布 对齐 对抗 学习 监督 声纹 识别 方法
【说明书】:

发明公开了一种融合分布对齐和对抗学习的无监督跨域声纹识别方法,该方法包括以下步骤:分别从源领域和目标领域的语音中提取多维声学特征;将提取的多维声学特征分别打上领域标签;将提取的源领域和目标领域的多维声学特征作为训练数据送入网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;根据目标函数计算整个系统的损失函数;利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;经过多次迭代直至收敛,模型训练完成。本发明可以在目标领域缺少说话者数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。

技术领域

本发明涉及跨域声纹识别技术,尤其涉及一种融合分布对齐和对抗学习的无监督跨域声纹识别方法。

背景技术

通过深度学习的建模方法从语音中提取深度声纹鉴别性特征,成为该领域主流的研究热点。深度神经网络(Deep Neural Networks,DNN)具有强大的建模能力,以及针对各场景提出的损失函数,展现出相对于传统技术的明显优势。其中的声纹特征是一段固定长度、蕴含声纹鉴别性信息的向量,然而这种深度特征仍然对领域的变化十分敏感。

在实际应用中,训练好的模型在新的领域使用时,大量干扰因素使得目标领域和源领域数据分布存在差异,比如语音录制的设备不同,环境的背景噪声情况不同,语言种类不同,甚至说话人到同一录制设备的距离不同,都会最终影响识别的准确率。

基于对抗学习(Adversarial Learning)的领域自适应(Domain Adaptation)技术,在降低领域偏移(domain shift)上卓有成效。对抗领域自适应技术与早年的生成对抗网络(generative adversarial networks,GAN)类似,利用一个特征提取网络来获取深度特征,同时采用一个域分类网络来区分输入的训练样本是来自源领域还是目标领域。这种区分的目的是让网络最终无法分辨源领域和目标领域,从而认为提取到的深度特征中,领域信息的差异减小,或者领域的信息被削弱。通过梯度反转层(Gradient Reversal Layer,GRL)的引入,这种域对抗训练的方法得到了较好的实现。

上述方法一般需要建立在目标领域的训练数据同样有说话人标签的基础上,也就是有监督训练。而在科研或实际应用中,采集足够的有说话人标签的语音数据往往需要消耗大量人力或成本,可行性不高。

采用分布匹配(Distribution matching)理论的领域自适应方法同样也被用来减小领域偏移,最大均值差异(Maximum Mean Discrepancy,MMD)和相关对齐法(CorrelationAlignment,CORAL)是最常用的两个域之间分布差异的度量方式。此外,目前大多深度领域自适应技术都聚焦在源领域和目标领域间的全局偏移,而没有考虑两个领域都有的子领域之间的关系(子领域是指两个领域里都有的同一目标类)。这样经过全局的领域自适应之后,源领域和目标领域的整体分布可能趋向相似,但各自领域内部子领域之间的数据可能会因距离太近而无法区分。研究者在图像分类任务中引入了局部最大均值差异(LocalMaximum Mean Discrepancy,LMMD)来解决此类问题。

卷积神经网络(Convolutional Neural Networks,CNN)由于多变的感受野,能够有强大的多尺度特征表达能力。以CNN为主干,发展出大量网络模型,AlexNet通过卷积层的堆叠和使用更大的卷积核,在计算机视觉领域取得过突破性的成绩,但局限于层数和卷积核的大小,感受野有限。VGGNet使用更深的网络深度和更小的卷积核,获得了更好的识别效果,表明增加网络层数比增大卷积核能够效率更高的增大感受野,从而学习到更大尺度的特征表达。但过多的网络层数容易造成训练过程中的梯度退化问题。

2015年何恺明提出的残差网络(ResNet)对CNN做了较大创新,不再简单的堆积网络层数,而是增加一个恒等映射结构,解决了困扰已久的深度学习中网络退化问题,成为目前最为流行的CNN网络结构之一。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110277452.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top