[发明专利]说话人信息提取模型的训练方法、装置和计算机设备有效

申请号：	202010542435.4	申请日：	2020-06-15
公开（公告）号：	CN111429923B	公开（公告）日：	2020-09-29
发明（设计）人：	徐泓洋;太荣鹏;温平	申请（专利权）人：	深圳市友杰智新科技有限公司
主分类号：	G10L17/04	分类号：	G10L17/04;G10L17/02;G10L17/18;G10L15/26;G10L13/04
代理公司：	深圳市明日今典知识产权代理事务所(普通合伙) 44343	代理人：	王杰辉
地址：	518000 广东省深圳市南山区招商***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	说话信息提取模型训练方法装置计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种说话人信息提取模型的训练方法，其特征在于，包括：

将语音合成系统与语音识别系统，通过所述说话人信息提取模型关联为训练体系，其中，所述语音合成系统包括依次连接的文本处理网络和音频恢复网络，所述语音识别系统包括依次连接的音频处理网络和文本恢复网络，所述说话人信息提取模型分别与所述音频恢复网络关联，以及与所述音频处理网络关联；

获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果，获取所述说话人信息提取模型提取的剩余数据信息，获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述第一数据对为训练集中的任意数据对，所述剩余数据信息为所述语音数据对应的文本内容信息之外的信息，所述剩余数据信息包括说话人的声纹信息；

从所述音频处理结果中去除所述剩余数据信息，得到第一高维向量；

通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型，至所述损失函数达最小值时训练收敛，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；

训练收敛后，固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合；

将所述音频处理网络和所述音频恢复网络组合成处理音频的网络，将所述文本处理网络和所述文本恢复网络组合成处理文本的网络；

在固定所述第一参量集合的状态下，通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛，以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合；

将所述第四参量集合下的说话人信息提取模型，作为预训练的说话人信息提取模型。

2.根据权利要求1所述的说话人信息提取模型的训练方法，其特征在于，所述音频恢复网络包括依次连接的第一全连接层和RNN-DECNN计算层，所述在固定所述第一参量集合的状态下，通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛，以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合的步骤，包括：

将所述第一高维向量输入所述音频恢复网络的全连接层，得到第一计算结果；

将所述第一计算结果与所述剩余数据信息汇合，得到第二计算结果；

将所述第二计算结果输入所述音频恢复网络的RNN-DECNN计算层，得到述第一高维向量对应的恢复数据；

判断所述损失函数的值达到最小时，所述恢复数据是否与所述语音数据一致；

若是，则判定通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型已收敛；

固定训练收敛时，所述音频恢复网络对应的参数集合为第三参量集合，所述说话人信息提取模型对应的参数集合为第四参量集合。

3.根据权利要求2所述的说话人信息提取模型的训练方法，其特征在于，所述说话人信息提取模型包括依次连接的可解释卷积滤波器、深度卷积层和第二全连接层，所述获取所述说话人信息提取模型提取的剩余数据信息的步骤，包括：

将所述语音数据输入所述可解释卷积滤波器，得到所述语音数据对应的特征矩阵；

将所述特征矩阵依次输入所述深度卷积层，从所述特征矩阵中提取所述语音数据对应的文本内容信息之外的说话人特征信息，其中，所述说话人特征信息包括声纹信息；

将所述说话人特征信息输入所述第二全连接层，得到所述说话人特征信息的向量；

将所述说话人特征信息的向量作为所述剩余数据信息。

4.根据权利要求1所述的说话人信息提取模型的训练方法，其特征在于，所述通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型，至所述损失函数达最小值时训练收敛的步骤，包括：