[发明专利]用于语音合成的系统和方法有效
申请号: | 201780037307.0 | 申请日: | 2017-05-16 |
公开(公告)号: | CN109313891B | 公开(公告)日: | 2023-02-21 |
发明(设计)人: | 张辉;李秀林 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L13/08;G06F40/284 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
地址: | 100193 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 合成 系统 方法 | ||
1.一种用于基于文本生成语音的计算机实施方法,所述方法包括:
从所述文本中识别多个音素;
对每个识别的音素,确定第一组声学特征;
基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素,其中,所述基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素包括:
将所述每个识别的音素分割为多个帧;
确定每一帧的第三组声学特征;
对所述第三组声学特征中的至少一个声学特征进行加权处理;
根据加权结果从所述语音数据库中选择与所述每个识别的音素相对应的所述样本音素;
对每个选择的样本音素,确定第二组声学特征;以及
利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。
2.根据权利要求1所述的计算机实施方法,其特征在于,所述第一组声学特征包括第一音素持续时间、第一基频、第一频谱或其任何组合。
3.根据权利要求2所述的计算机实施方法,其特征在于,所述第二组声学特征包括第二音素持续时间、第二基频、第二频谱或其任何组合。
4.根据权利要求1所述的计算机实施方法,进一步包括:
为所述每个识别的音素确定一组文本特征,
其中基于所述识别的音素确定的文本特征生成所述语音。
5.根据权利要求1所述的计算机实施方法,其特征在于,选择所述样本音素进一步包括:
选择存储在所述语音数据库中的音素,被选择的音素的声学特征与所述识别的音素的声学特征相似度最高。
6.根据权利要求1所述的计算机实施方法,其中所述生成模型是隐马尔可夫模型(HMM)或神经网络模型。
7.根据权利要求1所述的计算机实施方法,进一步包括:
利用所述语音数据库中的多个训练样本训练所述生成模型,
其中所述多个训练样本包括多个音素频谱。
8.根据权利要求7所述的计算机实施方法,其特征在于,生成所述语音包括:
利用经训练的生成模型,基于被选择的样本音素的频谱,生成所述语音。
9.一种用于基于文本生成语音的语音合成系统,所述语音合成系统包括:
存储装置,所述存储装置被配置为存储语音数据库和生成模型;以及处理器,所述处理器被配置为:
从所述文本中识别多个音素;
对每个识别的音素,确定第一组声学特征;
基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素,其中,为基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素,所述处理器进一步被配置为:将所述每个识别的音素分割为多个帧;
确定每一帧的第三组声学特征;对所述第三组声学特征中的至少一个声学特征进行加权处理;
根据加权结果从所述语音数据库中选择与所述每个识别的音素相对应的所述样本音素;对每个选择的样本音素,确定第二组声学特征;以及
利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。
10.根据权利要求9所述的语音合成系统,其特征在于,所述第一组声学特征包括第一音素持续时间、第一基频、第一频谱或其任何组合。
11.根据权利要求10所述的语音合成系统,其特征在于,所述第二组声学特征包括第二音素持续时间、第二基频、第二频谱或其任何组合。
12.根据权利要求9所述的语音合成系统,所述处理器进一步被配置为:
为所述每个识别的音素确定一组文本特征,
其中基于所述识别的音素确定的文本特征生成所述语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780037307.0/1.html,转载请声明来源钻瓜专利网。