[发明专利]一种语音合成方法、装置、设备及存储介质有效

申请号：	202011597100.9	申请日：	2020-12-28
公开（公告）号：	CN112786002B	公开（公告）日：	2022-12-06
发明（设计）人：	祖漪清;钟金佐穆	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/08;G10L15/16
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	张柳
地址：	230088 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种语音合成方法、装置、设备及存储介质，其中，语音合成方法包括：根据目标文本获取文本单元序列，其中，文本单元序列中的每个文本单元包括至少一个字符；对文本单元序列中的每个文本单元按音节进行切分，得到子文本单元序列；确定子文本单元序列中每个子文本单元对应的语音单元，得到语音单元序列；基于子文本单元序列和语音单元序列进行语音合成，得到目标文本对应的合成语音。本申请提供的语音合成方法具有较好的语音合成效果，且人工成本和时间成本较低。

技术领域

本申请涉及语音合成技术领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术

语音合成技术又称文语转换技术，即，将文本转换为语音的技术，该技术赋予计算机像人一样自如说话的能力，使用户与机器之间的信息沟通更加舒服自然。

目前的语音合成方案多为基于发音词典的语音合成方案，该方案的大致思路是，预先由专家构建包括多个词条的发音序列的发音词典，在进行语音合成时，从发音词典中获取待进行语音合成的目标文本中各个词条的发音序列，根据目标文本中各个词条的发音序列进行语音合成。

由于基于发音词典的语音合成方案需要人工构建发音词典，而发音词典中通常需要包含大量词的发音序列，因此，构建发音词典的人工成本和时间成本极高，且人工构建发音词典受主观因素影响较大，即，构建的发音词典中很容易出现错误的发音序列，而发音词典中出现错误的发音序列势必会影响语音合成效果。

发明内容

有鉴于此，本申请提供了一种语音合成方法、装置、设备及存储介质，用以解决现有技术中的语音合成方案人工成本和时间成本较高，且语音合成效果受主观因素影响较大的问题，其技术方案如下：

一种语音合成方法，包括：

根据目标文本获取文本单元序列，其中，所述文本单元序列中的每个文本单元包括至少一个字符；

对所述文本单元序列中的每个文本单元按音节进行切分，得到子文本单元序列；

确定所述子文本单元序列中每个子文本单元对应的语音单元，得到语音单元序列；