[发明专利]音频生成方法和装置、存储介质、电子设备有效
申请号: | 201910262772.5 | 申请日: | 2019-04-02 |
公开(公告)号: | CN109979428B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 胡大盟;袁武文 | 申请(专利权)人: | 北京地平线机器人技术研发有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 王晓多 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 生成 方法 装置 存储 介质 电子设备 | ||
1.一种音频生成方法,包括:
确定多个音素片段中每个音素片段对应的多个预选波形片段,所述多个音素片段通过待转换文本得到;包括:对待转换文本进行音素分析处理,获得待转换文本中包括的多个音素;将所述多个音素中的每个音素作为中间音素,基于所述中间音素、所述中间音素之前的至少一个音素和之后的至少一个音素构成所述音素片段;
对于每个所述音素片段,基于所述音素片段的时长信息对所述多个预选波形片段进行时长过滤,从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段;
基于每个所述音素片段对应的多个过滤波形片段,确定所述待转换文本对应的音频波形。
2.根据权利要求1所述的方法,其中,所述基于所述音素片段的时长信息对所述多个预选波形片段进行时长过滤,从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段,包括:
利用时长预测网络对所述音素片段进行时长预测,获得所述音素片段的时长信息;
确定所述多个预选波形片段各自对应的时长信息,得到至少一个时长信息;
确定所述多个预选波形片段各自对应的时长信息与所述音素片段的时长信息之间的差值,得到至少一个差值;
基于所述至少一个差值,从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段。
3.根据权利要求2所述的方法,其中,所述基于所述至少一个差值,从所述多个预选波形片段中获得所述音素片段对应的多个过滤波形片段,包括:
确定所述至少一个差值各自对应的差值绝对值,得到至少一个差值绝对值;
按照所述至少一个差值绝对值的大小对所述多个预选波形片段进行排序;
按序获得预设数量的预选波形片段,将所述预设数量的预选波形片段作为所述音素片段对应的多个过滤波形片段。
4.根据权利要求1所述的方法,其中,所述基于每个所述音素片段对应的多个过滤波形片段,确定所述待转换文本对应的音频波形,包括:
确定每个所述音素片段对应的多个过滤波形片段中每个过滤波形片段对应的第一声学特征;
基于所述第一声学特征确定每个所述过滤波形片段的目标损失值;
按照所述多个音素片段在所述待转换文本中的顺序,获得所述多个音素片段中每两个相邻的音素片段对应的过滤波形片段之间的连接损失值;
基于所述目标损失值和所述连接损失值,确定所述待转换文本对应的音频波形。
5.根据权利要求4所述的方法,其中,所述确定每个所述音素片段对应的多个过滤波形片段中每个过滤波形片段对应的第一声学特征,包括:
对所述多个过滤波形片段中每个过滤波形片段提取梅尔幅度谱系数;
基于所述梅尔幅度谱系数确定每个所述过滤波形片段对应的第一声学特征。
6.根据权利要求4所述的方法,其中,所述基于所述声学特征确定每个所述过滤波形片段的目标损失值,包括:
利用目标神经网络分别对所述多个音素片段中的每个音素片段进行处理,获得每个所述音素片段的第二声学特征的均值和方差;
基于所述第二声学特征的均值和方差、以及所述第一声学特征,获得每个所述过滤波形片段的目标损失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京地平线机器人技术研发有限公司,未经北京地平线机器人技术研发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910262772.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:检测音响的系统和方法
- 下一篇:一种TTS的方法及系统