首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种融合分布对齐和对抗学习的无监督跨域声纹识别方法有效

申请号：	202110277452.4	申请日：	2021-03-15
公开（公告）号：	CN112820301B	公开（公告）日：	2023-01-20
发明（设计）人：	赵庆卫;方策;王文超;张鹏远;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/14;G10L17/18;G06N3/04;G06N3/08
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合分布对齐对抗学习监督声纹识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合分布对齐和对抗学习的无监督跨域声纹识别模型训练方法，其特征在于，包括以下步骤：

分别从源领域和目标领域的语音中提取多维声学特征；

将提取的多维声学特征分别打上领域标签，其中源领域的数据有说话者标签，目标领域的数据没有说话者标签；

将提取的源领域和目标领域的多维声学特征作为训练数据依次送入神经网络模型，训练得到源领域的分类损失、源领域和目标领域的对抗损失；根据领域分布对齐损失函数计算源领域和目标领域的差异损失；最后根据目标函数计算整个系统的损失函数；

利用随机梯度下降作为优化器，进行梯度计算，同时对损失函数计算出的梯度进行反向传播，更新参数；

经过多次迭代直至收敛，模型训练完成；

源领域的分类损失表达式为：

其中，L_C是源领域分类任务的交叉熵(Cross Entropy)损失函数，C代表多分类器；交叉熵损失函数的定义如下：

其中，输入训练样本为对应的标签为K是分类的类别数，指的是输入到模型的源领域训练数据包含的说话者总数，y_i是真实标签，p_i是模型输出的预测值。

2.根据权利要求1所述的方法，其特征在于，所述神经网络采用卷积神经网络为框架，所述卷积神经网络采用标准的50层的ResNet，即ResNet-50；在训练的开始搭建初始化的ResNet-50。

3.根据权利要求1所述的方法，其特征在于，源领域和目标领域的对抗损失表达式为：

其中，F_s和F_t分别是源领域和目标领域的特征提取器，D是可以区分特征来自源领域还是目标领域的二分类器。

4.根据权利要求1所述的方法，其特征在于，定义源领域特征和目标领域特征之间的相关对齐的损失函数为：

其中，C_s和C_t分别表示源领域数据特征和目标领域数据特征的协方差矩阵，所述特征指的是从神经网络模型最后提取出的表征说话人身份的embedding向量，d表示特征的维度，表示矩阵的F-范数，一个m行n列的矩阵M，它的F-范数的定义是：

而C_s和C_t的计算过程如下，其中N_s是训练过程中送入神经网络模型的每一批源领域数据的总数，N_t是训练过程中送入神经网络模型每一批目标领域数据的总数：

5.根据权利要求1所述的方法，其特征在于，目标函数为：

其中，λ和σ分别是对抗损失函数和分布匹配损失的权重，是需要训练的超参数。

6.根据权利要求1所述的方法，其特征在于，所述多维声学特征为64维声学特征Fbank。

7.根据权利要求1所述的方法，其特征在于，所述将提取的多维声学特征分别打上领域标签步骤，包括：

对源领域和目标领域分别打上领域标签，所述源领域的领域标签和所述目标领域的领域标签通过不同的数字来表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所，未经中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110277452.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于激光切割机的钢化玻璃防护壳
下一篇：基于安卓系统的心脑血管康复治疗数据监护系统

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top