[发明专利]一种音色转换方法、装置、电子设备及可读存储介质在审
申请号: | 202110790316.5 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113611309A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 王愈;武卫东;陈明;李健 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L25/24;G10L25/30;G10L21/013;G10L21/007 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音色 转换 方法 装置 电子设备 可读 存储 介质 | ||
1.一种音色转换方法,其特征在于,所述方法包括:
提取待转换语音的输入谱参数;
基于所述输入谱参数,确定第一语音文本参数;
基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;
基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;
基于所述输出谱参数,得到音色转换后的目标语音。
2.根据权利要求1所述的方法,其特征在于,所述基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数,包括:
基于所述音色转换模型,对所述输入谱参数进行所述变分自编码处理,确定语音声音参数的第一概率分布参数;
对所述第一概率分布参数进行所述注意力机制处理,得到第二概率分布参数;
根据所述第二概率分布参数,确定所述语音声音参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数,包括:
基于所述音色转换模型,对所述第一语音文本参数进行预设伦次的长度减半的卷积操作,得到中间文本参数;
根据所述中间文本参数及所述语音声音参数,确定目标语音参数;
对所述目标语音参数进行所述预设伦次的长度加倍的反卷积操作,确定所述输出谱参数。
4.根据权利要求3所述的方法,其特征在于,所述对所述输入谱参数进行变分自编码处理,确定语音声音参数的第一概率分布参数,包括:
基于所述音色转换模型,对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作,确定目标输入谱参数;
基于所述目标输入谱参数,确定所述语音声音参数的所述第一概率分布参数。
5.根据权利要求2所述的方法,其特征在于,所述第一概率分布参数包括第一均值及方差;
所述基于所述音色转换模型,对所述第一概率分布参数进行注意力机制处理,得到第二概率分布参数,包括:
利用所述注意力机制,对所述第一均值进行处理,得到第二均值;
由所述第二均值与所述方差,确定所述第二概率分布参数。
6.根据权利要求5所述的方法,其特征在于,所述音色转换模型包括预先设置的L个维度与所述第一均值相同的向量序列;
所述利用所述注意力机制,对所述第一均值进行处理,得到第二均值,包括:
根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值,包括:
将所述中间文本参数与所述向量序列组合,获得组合向量序列;
通过所述第一均值对所述组合向量序列进行注意力机制计算,确定所述第二均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110790316.5/1.html,转载请声明来源钻瓜专利网。