[发明专利]语音合成方法、装置、计算机设备及存储介质有效
申请号: | 201911368538.7 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111091807B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 劳振锋;肖纯智 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/08;G10L13/10;G10L13/033;G10L15/26 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 郭新禹 |
地址: | 510660 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 计算机 设备 存储 介质 | ||
1.一种语音合成方法,其特征在于,所述方法包括:
获取第一对象的原始语音,所述原始语音属于准稳态信号;
对所述原始语音进行语音识别,得到所述原始语音对应的原始发音序列,所述原始发音序列中包括所述原始语音中各个字词的原始字词发音;
从目标字词库中获取所述原始字词发音对应的目标字词发音,所述目标字词库中存储有第二对象对各个字词的字词发音,所述目标字词发音与所述原始字词发音匹配;
对各个所述目标字词发音进行拼接,生成目标发音序列;
提取所述目标发音序列对应的第一频谱包络,以及所述原始发音序列对应的第二频谱包络;
对所述第一频谱包络和所述第二频谱包络进行特征对齐,得到包络对齐后的所述目标发音序列;
提取所述目标发音序列对应的目标频谱包络和非周期特征,所述目标频谱包络是经过包络对齐后的所述第一频谱包络;
提取所述原始发音序列的音高特征;
根据所述目标频谱包络、所述非周期特征和所述音高特征,合成目标语音,所述目标语音具有所述第二对象的声音特征;
所述对所述原始语音进行语音识别,得到所述原始语音对应的原始发音序列,包括:
对所述原始语音进行分帧处理,通过语音识别技术预测出各帧帧信号的最大概率音素,根据英语字词或声母和韵母的组合规则,通过所述语音识别技术实现所述原始语音的文本转换,得到所述原始发音序列,所述最大概率音素为音素集中任一帧信号对应的最大概率的音素;
所述从目标字词库中获取所述原始字词发音对应的目标字词发音之前,所述方法还包括:
获取所述原始语音对应的语音类型,所述语音类型用于指示产生所述原始语音的场景,所述场景包括对话场景、演唱场景和演讲场景中的至少一种;
根据所述语音类型,从所述第二对象对应的至少两个字词库中确定所述目标字词库,所述目标字词库根据属于所述语音类型的语音语料构建得到。
2.根据权利要求1所述的方法,其特征在于,所述从目标字词库中获取所述原始字词发音对应的目标字词发音,包括:
确定所述原始字词发音与所述目标字词库中各个字词发音的发音匹配度;
根据所述发音匹配度从所述目标字词库中确定出至少一个候选字词发音,所述候选字词发音对应的发音匹配度高于其他字词发音对应的发音匹配度;
从至少一个所述候选字词发音中确定所述目标字词发音。
3.根据权利要求2所述的方法,其特征在于,所述语音识别的结果中还包括所述原始字词发音对应的原始音长和原始音高中的至少一种;
所述从至少一个所述候选字词发音中确定所述目标字词发音,包括:
获取所述候选字词发音对应的候选音长和候选音高;
根据所述候选音长与所述原始音长的音长匹配度,和,所述候选音高与所述原始音高的音高匹配度中的至少一种,从所述候选字词发音中确定所述目标字词发音。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述第二对象的语音语料;
从所述语音语料中提取所述第二对象对各个字词的字词发音、音长以及音高;
将提取到的字词发音、音长以及音高关联存储至所述目标字词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911368538.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纳米氧化锌表面改性以及反相分散浆的制备方法
- 下一篇:香薰装置