[发明专利]语音合成方法、语音交互方法、装置及设备在审
申请号: | 202010081934.8 | 申请日: | 2020-02-06 |
公开(公告)号: | CN113299271A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 盖于涛;曹元斌;张斌 | 申请(专利权)人: | 菜鸟智能物流控股有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/04;G10L13/08;G10L15/22 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 交互 装置 设备 | ||
1.一种语音合成方法,其特征在于,包括:
对待合成文本进行切分,得到其已合成片段和待合成片段;
以所述待合成片段中的音素为单元,确定所述音素的语音片段;
通过查询预设音库获得所述已合成片段的语音片段;所述预设音库基于端到端语音合成模型生成;
根据所述音素及所述已合成片段的语音片段,得到合成语音。
2.根据权利要求1所述的方法,其特征在于,所述待合成文本基于自然语言生成模型对结构化数据处理得到;所述待合成片段包括所述结构化数据中参数值对应的文本片段;所述已合成片段包括所述自然语言生成模型针对所述结构化数据所扩展的文本片段。
3.根据权利要求2所述的方法,其特征在于,所述预设音库包括:所述端到端语音合成模型基于至少一个样本文本生成的生成语音,以及各样本文本的不同特定样本片段与各所述样本文本的生成语音中语音片段的第一对应关系;其中,所述样本文本为所述自然语言生成模型处理样本结构化数据所得到的文本,所述特定样本片段包括已合成样本片段和/或待合成样本片段。
4.根据权利要求3所述的方法,其特征在于,所述通过查询预设音库获得所述已合成片段的语音片段,包括:通过查询所述预设音库获得与所述待合成文本匹配的目标生成语音以及不同特定样本文本片段与所述目标生成语音中语音片段的目标第一对应关系,并根据所述目标第一对应关系从所述目标生成语音中截取与所述已合成片段匹配的语音片段;
所述根据所述音素及所述已合成片段的语音片段,得到合成语音,包括:通过对所述音素及所述已合成片段的语音片段进行拼接,以得到合成语音。
5.根据权利要求3所述的方法,其特征在于,所述通过查询预设音库获得所述已合成片段的语音片段,包括:通过查询所述预设音库获得与所述待合成文本匹配的目标生成语音以及不同特定样本文本片段与所述目标生成语音中语音片段的目标第一对应关系,所述目标生成数据中包括所述已合成片段的语音片段;
所述根据所述音素及所述已合成片段的语音片段,得到合成语音,包括:根据所述目标第一对应关系,使用所述音素的语音片段替换所述目标生成语音中相应的语音片段,以得到合成语音。
6.根据权利要求4或5所述的方法,其特征在于,所述样本结构化数据的个数为多个,且多个所述样本结构化数据与多个数据结构一一对应;所述预设音库还包括:不同生成语音与结构化标识的第二对应关系,所述结构化标识用于标识对应的数据结构;
通过查询所述预设音库获得与所述目标生成语音以及所述目标第一对应关系,包括:
通过将所述待合成文本对应结构化数据的结构化标识作为索引,查询所述预设音库获得与所述目标生成语音以及所述目标第一对应关系。
7.根据权利要求3所述的方法,其特征在于,所述预设音库的生成过程包括如下步骤:
将所述至少一个样本文本分别输入所述端到端语音合成模型,经所述端到端语音合成模型处理,以得到各样本文本的生成语音;
标注各样本文本的不同特定样本片段与各所述样本文本的生成语音中语音片段的对应关系,以得到所述第一对应关系。
8.根据权利要求7所述的方法,其特征在于,所述标注各样本文本的不同特定样本片段与各所述样本文本的生成语音中语音片段的对应关系,包括:
标注各样本文本的音素序列中各音素与各所述样本文本的生成语音中语音帧的第三对应关系;
根据所述第三对应关系,标注各样本文本的不同特定样本片段与各所述样本文本的生成语音中语音片段的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于菜鸟智能物流控股有限公司,未经菜鸟智能物流控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010081934.8/1.html,转载请声明来源钻瓜专利网。