[发明专利]一种声纹向量提取方法、装置、设备及存储介质有效
申请号: | 202110505478.X | 申请日: | 2021-05-10 |
公开(公告)号: | CN113140222B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 李晋;方昕;褚繁;高天;戴礼荣 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/02;G10L17/04;G10L17/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王云晓 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 向量 提取 方法 装置 设备 存储 介质 | ||
1.一种声纹向量提取方法,其特征在于,包括:
获取目标语音数据对应的语谱片段序列;
基于所述语谱片段序列和预先建立的第一声纹提取模型,确定所述目标语音数据对应的声纹向量;
其中,所述第一声纹提取模型以第一训练语谱片段为训练样本,采用第二声纹提取模型辅助训练得到,所述第一声纹提取模型的训练目标包括:使基于第一声纹向量针对设定身份标签预测的概率与基于第二声纹向量针对所述设定身份标签预测的概率趋于一致,所述第一声纹向量为所述第一声纹提取模型针对所述第一训练语谱片段提取的声纹向量,所述第二声纹向量为所述第二声纹提取模型针对第二训练语谱片段提取的声纹向量,所述第二训练语谱片段为对所述第一训练语谱片段的时序进行打乱后的语谱片段。
2.根据权利要求1所述的声纹向量提取方法,其特征在于,所述第一声纹提取模型的训练目标还包括:
使基于所述第一声纹向量预测的身份标签与所述第一训练语谱片段对应的真实身份标签相同;
和/或,
使所述第一声纹向量与第三声纹向量的相似度高于所述第一声纹向量与第四声纹向量的相似度;其中,所述第三声纹向量为所述第一声纹提取模型针对对应的真实身份标签与所述第一训练语谱片段对应的真实身份标签相同的训练语谱片段提取的声纹向量,所述第四声纹向量为所述第一声纹提取模型针对对应的真实身份标签与所述第一训练语谱片段对应的真实身份标签不同的训练语谱片段提取的声纹向量。
3.根据权利要求1所述的声纹向量提取方法,其特征在于,建立所述第一声纹提取模型的过程包括:
将所述第一训练语谱片段输入第一声纹提取模型,得到所述第一声纹向量,根据所述第一声纹向量预测所述设定身份标签对应的概率,作为第一预测概率;
对所述第一训练语谱片段的时序进行打乱,将打乱时序后的语谱片段作为所述第二训练语谱片段输入所述第二声纹提取模型,得到所述第二声纹向量,根据所述第二声纹向量预测所述设定身份标签对应的概率,作为第二预测概率;
根据所述第一预测概率和所述第二预测概率,确定能够表征所述第一声纹提取模型与所述第二声纹提取模型对所述设定身份标签的预测差异的预测损失;
根据所述预测损失,更新第一声纹提取模型的参数。
4.根据权利要求3所述的声纹向量提取方法,其特征在于,所述第二训练语谱片段为多个;
对所述第一训练语谱片段的时序进行打乱,以得到多个第二训练语谱片段,包括:
基于多个不同的切分长度分别将所述第一训练语谱片段切分为语谱子片段,以得到分别对应于各切分长度的切分结果;
将对应于每个切分长度的切分结果中的语谱子片段打乱后重新组合,以得到多个第二训练语谱片段。
5.根据权利要求3所述的声纹向量提取方法,其特征在于,所述第二训练语谱片段为多个;
将所述第二训练语谱片段输入所述第二声纹提取模型,得到所述第二声纹向量,包括:
将多个第二训练语谱片段输入所述第二声纹提取模型;
由所述第二声纹提取模型将每个第二训练语谱片段映射为多个训练语谱子片段,以得到多个第二训练语谱片段分别对应的映射结果;
由所述第二声纹提取模型将多个第二训练语谱片段分别对应的映射结果中对应的训练语谱子片段融合,得到多个融合后训练语谱子片段;
由所述第二声纹提取模型对所述多个融合后训练语谱子片段进行处理,以得到所述第二声纹向量。
6.根据权利要求3所述的声纹向量提取方法,其特征在于,所述第一声纹提取模型和所述第二声纹提取模型均为卷积神经网络;
所述第一声纹提取模型包括多个级联的第一处理模块,每个第一处理模块均包括卷积层和激活层,第一个第一处理模块的输入为所述第一训练语谱片段,其它第一处理模块的输入为前一第一处理模块输出的多个训练语谱子片段,所述第一声纹向量基于最后一个第一处理模块的输出确定;
所述第二声纹提取模型包括多个级联的第二处理模块,每个第二处理模块均包括卷积层和激活层,第一个第二处理模块的输入为所述第二训练语谱片段,其它第二处理模块的输入为前一第二处理模块输出的多个训练语谱子片段,所述第二声纹向量基于最后一个第二处理模块的输出确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110505478.X/1.html,转载请声明来源钻瓜专利网。