[发明专利]一种语音合成方法、装置、设备及存储介质有效
申请号: | 202011597100.9 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112786002B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 祖漪清;钟金佐穆 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L15/16 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张柳 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 设备 存储 介质 | ||
本申请提供了一种语音合成方法、装置、设备及存储介质,其中,语音合成方法包括:根据目标文本获取文本单元序列,其中,文本单元序列中的每个文本单元包括至少一个字符;对文本单元序列中的每个文本单元按音节进行切分,得到子文本单元序列;确定子文本单元序列中每个子文本单元对应的语音单元,得到语音单元序列;基于子文本单元序列和语音单元序列进行语音合成,得到目标文本对应的合成语音。本申请提供的语音合成方法具有较好的语音合成效果,且人工成本和时间成本较低。
技术领域
本申请涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
背景技术
语音合成技术又称文语转换技术,即,将文本转换为语音的技术,该技术赋予计算机像人一样自如说话的能力,使用户与机器之间的信息沟通更加舒服自然。
目前的语音合成方案多为基于发音词典的语音合成方案,该方案的大致思路是,预先由专家构建包括多个词条的发音序列的发音词典,在进行语音合成时,从发音词典中获取待进行语音合成的目标文本中各个词条的发音序列,根据目标文本中各个词条的发音序列进行语音合成。
由于基于发音词典的语音合成方案需要人工构建发音词典,而发音词典中通常需要包含大量词的发音序列,因此,构建发音词典的人工成本和时间成本极高,且人工构建发音词典受主观因素影响较大,即,构建的发音词典中很容易出现错误的发音序列,而发音词典中出现错误的发音序列势必会影响语音合成效果。
发明内容
有鉴于此,本申请提供了一种语音合成方法、装置、设备及存储介质,用以解决现有技术中的语音合成方案人工成本和时间成本较高,且语音合成效果受主观因素影响较大的问题,其技术方案如下:
一种语音合成方法,包括:
根据目标文本获取文本单元序列,其中,所述文本单元序列中的每个文本单元包括至少一个字符;
对所述文本单元序列中的每个文本单元按音节进行切分,得到子文本单元序列;
确定所述子文本单元序列中每个子文本单元对应的语音单元,得到语音单元序列;
基于所述子文本单元序列和所述语音单元序列进行语音合成,得到所述目标文本对应的合成语音。
可选的,所述对所述文本单元序列中的每个文本单元按音节进行切分,得到子文本单元序列,包括:
按预设的切分原则,对所述文本单元序列中的每个文本单元进行切分,得到子文本单元序列,其中,所述切分原则为使每个子文本单元对应一个音节。
可选的,所述对所述文本单元序列中的每个文本单元进行切分,包括:
针对所述目标文本中每个待切分的文本单元:
确定所述待切分的文本单元中每个字符对应的语音属性;
以所述待切分的文本单元中每个字符对应的语音属性为依据,对所述待切分的文本单元进行切分。
可选的,所述确定所述待切分的文本单元中每个字符对应的语音属性,包括:
基于预先建立的字符与语音属性的对应关系,确定所述待切分的文本单元中每个字符对应的语音属性。
可选的,所述以所述待切分的文本单元中每个字符对应的语音属性为依据,对所述待切分的文本单元进行切分,包括:
基于所述待切分的文本单元中对应的语音属性为第一属性的字符,对所述待切分的文本单元进行切分,得到第一切分结果;
基于所述第一切分结果中对应的语音属性为第二属性的字符,对所述第一切分结果进一步进行切分;
其中,所述第一属性为元音和辅音中的其中一个,所述第二属性为元音和辅音中的另一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011597100.9/2.html,转载请声明来源钻瓜专利网。