[发明专利]用于说话人识别的网络模型训练方法、装置及存储介质在审
申请号: | 202111495680.5 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114360552A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 王佳;兰天浩;林秋镇;李坚强 | 申请(专利权)人: | 深圳大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/02;G10L17/14;G10L15/02;G06K9/62 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 王娅洁 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 说话 识别 网络 模型 训练 方法 装置 存储 介质 | ||
1.一种用于说话人识别的网络模型训练方法,其特征在于,包括:
将说话人样本数据集输入到多任务网络模型中,提取所述多任务网络模型中的说话人分类子网模型中设定层所输出的第一结果,所述说话人分类子网模型用于说话人分类训练;
将与所述说话人样本数据集所对应的跨域的音素样本数据集输入到所述多任务网络模型中,提取所述多任务网络中的音素分类子网模型中设定层所输出的第二结果,所述音素分类子网模型中的设定层与所述说话人分类子网模型中的设定层相对应,所述音素分类子网模型用于音素分类训练;
对所述第一结果和所述第二结果应用最大均值差异算法,得到所述第一结果和所述第二结果所对应的差异损失值;
依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
2.如权利要求1所述的用于说话人识别的网络模型训练方法,其特征在于,所述依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:
获取所述说话人样本数据集所对应的说话人样本身份标签;
依据所述说话人子网模型,得到训练的说话人嵌入模型;
依据所述说话人样本数据集和所述说话人嵌入模型,得到预测的说话人身份标签;
计算所述说话人样本身份标签和预测的所述说话人身份标签之间的身份标签差异;
获取所述音素样本数据集所对应的音素样本标签;
依据所述音素样本数据集和所述音素分类子网模型,得到预测的所述音素标签;
计算所述音素样本标签和预测的所述音素标签之间的音素差异;
将所述身份标签差异、所述差异损失值、所述音素差异作为新的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
3.如权利要求2所述的用于说话人识别的网络模型训练方法,其特征在于,所述依据所述身份标签差异、所述差异损失值、所述音素差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:
将所述身份标签差异、所述差异损失值、所述音素差异进行加权计算,得到所述网络模型所对应的损失总值;
依据所述损失总值对所述网络模型进行训练,得到训练之后的所述网络模型。
4.如权利要求2所述的用于说话人识别的网络模型训练方法,其特征在于,所述依据所述身份标签差异、所述差异损失值、所述音素差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:
依据两个所述音素分类子网模型,得到所述音素分类子网模型中的帧级音素分类子网络和段级音素分类子网络;
依据所述音素样本数据集和所述帧级音素分类子网络,得到预测的所述音素标签中的音素第一标签;
依据所述音素样本数据集和所述段级音素分类子网络,得到预测的所述音素标签中的音素第二标签;
计算所述音素差异中的所述音素样本标签和预测的所述音素第一标签之间的音素第一差异;
计算所述音素差异中的所述音素样本标签和预测的所述音素第二标签之间的音素第二差异;
依据所述身份标签差异、所述差异损失值、所述音素第一差异、所述音素第二差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111495680.5/1.html,转载请声明来源钻瓜专利网。