[发明专利]用于文本相关说话人识别的数据增强方法及系统有效
申请号: | 202011583125.3 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112634859B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 俞凯;钱彦旻;杜晨鹏;韩冰;王帅 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 相关 说话 识别 数据 增强 方法 系统 | ||
1.一种用于文本相关说话人识别的数据增强方法,包括:
基于多个说话人的文本无关的数据训练得到语音合成模型;
将第一真实语音数据对应的文本输入至所述语音合成模型,生成所述多个说话人的第二合成语音数据;
将所述第一真实语音数据以及所述第二合成语音数据作为用于文本相关的说话人识别的训练数据,其中,所述基于多个说话人的文本无关的数据训练得到语音合成模型包括:
通过提取器确定所述文本无关的数据中的各说话人的特征信息,其中,所述特征信息包括:音素、音色、音量、语速;
利用所述特征信息确定预测mel-声谱图;
基于预设参考mel-声谱图与所述预测mel-声谱图对所述语音合成模型的提取器进行训练,直至所述预测mel-声谱图趋近于所述预设参考mel-声谱图为止。
2.根据权利要求1所述的方法,其中,所述提取器的内核大小为3*3,包括6层2D卷积层。
3.根据权利要求1或2所述的方法,其中,所述提取器还包括:批处理归一化层用于防止梯度爆炸和梯度消失以及ReLU激活函数用于降低计算量。
4.一种用于文本相关说话人识别的数据增强系统,包括:
模型训练程序模块,用于基于多个说话人的文本无关的数据训练得到语音合成模型;
数据生成程序模块,用于将第一真实语音数据对应的文本输入至所述语音合成模型,生成所述多个说话人的第二合成语音数据;
数据增强程序模块,用于将所述第一真实语音数据以及所述第二合成语音数据作为用于文本相关的说话人识别的训练数据,其中,所述模型训练程序模块用于:
通过提取器确定所述文本无关的数据中的各说话人的特征信息,其中,所述特征信息包括:音素、音色、音量、语速;
利用所述特征信息确定预测mel-声谱图;
基于预设参考mel-声谱图与所述预测mel-声谱图对所述语音合成模型的提取器进行训练,直至所述预测mel-声谱图趋近于所述预设参考mel-声谱图为止。
5.根据权利要求4所述的系统,其中,所述提取器的内核大小为3*3,包括6层2D卷积层。
6.根据权利要求4或5所述的系统,其中,所述提取器还包括:批处理归一化层用于防止梯度爆炸和梯度消失以及ReLU激活函数用于降低计算量。
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-3中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011583125.3/1.html,转载请声明来源钻瓜专利网。