[发明专利]语音合成方法、语音交互方法、装置及设备在审
申请号: | 202010081934.8 | 申请日: | 2020-02-06 |
公开(公告)号: | CN113299271A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 盖于涛;曹元斌;张斌 | 申请(专利权)人: | 菜鸟智能物流控股有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/04;G10L13/08;G10L15/22 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 交互 装置 设备 | ||
本申请实施例提供一种语音合成方法、语音交互方法、装置及设备,该方法包括:对待合成文本进行切分,得到其已合成片段和待合成片段;以所述待合成片段中的音素为单元,确定所述音素的语音片段;通过查询预设音库获得所述已合成片段的语音片段;所述预设音库基于端到端语音合成模型生成;根据所述音素及所述已合成片段的语音片段,得到合成语音。本申请能够在实时语音场景下,提高合成语音的流畅度及自然度。
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音合成方法、语音交互方法、装置及设备。
背景技术
随着人工智能的不断发展,语音合成的应用越来越广泛,通过语音合成能够实现将文本合成为语音。
传统的语音合成方法主要包括使用原始发音人的语音片段拼接生成语音的拼接法,具体的,先利用声学模型获得待合成文本对应的音素序列中各音素的音频特征,然后根据音素的音频特征从音库与该音素对应的多个语音片段中选择与该音素的音频特征最相似的语音片段,最后按照音素序列的顺序对音素的语音片段进行拼接得到待合成文本的合成语音。然而,拼接法在韵律、语速、自然度上都与真人发音差距较大。目前,新涌现出以tacotron为代表的端到端方法,具体的,将待合成文本输入端到端模型中,端到端模型的输出即为待合成文本的合成语音,端到端方法能够生成较拼接法更加流畅自然的语音,但是由于模型较大,因此实时性较差。
因此,在实时语音场景下,如何提高合成语音的流畅度及自然度成为目前亟待解决的问题。
发明内容
本申请实施例提供一种语音合成方法、语音交互方法、装置及设备,用以解决现有技术中在实时语音场景下,如何提高合成语音的流畅度及自然度成为目前亟待解决的问题。
第一方面,本申请实施例提供一种语音合成方法,包括:
对待合成文本进行切分,得到其已合成片段和待合成片段;
以所述待合成片段中的音素为单元,确定所述音素的语音片段;
通过查询预设音库获得所述已合成片段的语音片段;所述预设音库基于端到端语音合成模型生成;
根据所述音素及所述已合成片段的语音片段,得到合成语音。
第二方面,本申请实施例提供一种语音交互方法,包括:
获得针对待合成文本的合成语音,所述合成语音是采用如下方式合成:对所述待合成文本进行切分,得到其已合成片段和待合成片段,以所述待合成片段中的音素为单元,确定所述音素的语音片段,通过查询预设音库获得所述已合成片段的语音片段;所述预设音库基于端到端语音合成模型生成;以及,根据所述音素及所述已合成片段的语音片段,得到所述合成语音;
播放所述合成语音。
第三方面,本申请实施例一种提供语音合成装置,包括:
切分模块,用于对待合成文本进行切分,得到其已合成片段和待合成片段;
确定模块,用于以所述待合成片段中的音素为单元,确定所述音素的语音片段;
获得模块,用于通过查询预设音库获得所述已合成片段的语音片段;所述预设音库基于端到端语音合成模型生成;
合成模块,用于根据所述音素及所述已合成片段的语音片段,得到合成语音。
第四方面,本申请实施例一种语音交互装置,包括:
获得模块,用于获得针对待合成文本的合成语音,所述合成语音是采用如下方式合成:对所述待合成文本进行切分,得到其已合成片段和待合成片段,以所述待合成片段中的音素为单元,确定所述音素的语音片段,通过查询预设音库获得所述已合成片段的语音片段;所述预设音库基于端到端语音合成模型生成;以及,根据所述音素及所述已合成片段的语音片段,得到所述合成语音;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于菜鸟智能物流控股有限公司,未经菜鸟智能物流控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010081934.8/2.html,转载请声明来源钻瓜专利网。