[发明专利]语音合成方法和装置有效
申请号: | 201711205386.X | 申请日: | 2017-11-27 |
公开(公告)号: | CN107945786B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 周志平 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 | ||
1.一种语音合成方法,包括:
确定待处理文本的音素序列;
将所述音素序列输入至预先训练的语音模型,得到与所述音素序列中的每一个音素相对应的声学特征,其中,所述语音模型用于表征音素序列中的每一个音素与声学特征的对应关系;
对于所述音素序列中的每一个音素,基于预置的、音素与语音波形单元的索引,确定与该音素相对应的至少一个语音波形单元,并基于该音素对应的声学特征和预设的代价函数,确定所述至少一个语音波形单元中的目标语音波形单元;
所述基于该音素对应的声学特征和预设的代价函数,确定所述至少一个语音波形单元中的目标语音波形单元,包括:
将该音素对应的声学特征确定为目标声学特征;
从该音素相对应的所述至少一个语音波形单元中的提取每一语音波形单元对应的声学特征;
计算所述目标声学特征与每一所述语音波形单元对应的声学特征的欧氏距离,所述预设的代价函数为基于欧式距离建立的函数;
根据所述欧式距离确定该音素的目标语音波形单元;
将所述音素序列中的各个音素对应的目标语音波形单元进行合成,生成语音。
2.根据权利要求1所述的语音合成方法,其中,所述语音模型为端对端神经网络,所述端对端神经网络包括第一神经网络、注意力模型和第二神经网络。
3.根据权利要求1所述的语音合成方法,其中,所述语音模型通过如下步骤训练得到:
提取训练样本,其中,所述训练样本包括文本样本和与所述文本样本相对应的语音样本;
确定所述文本样本的音素序列样本和构成所述语音样本的语音波形单元,从构成所述语音样本的语音波形单元中提取声学特征;
利用机器学习方法,将所述音素序列样本作为输入,将所提取的声学特征作为输出,训练得到语音模型。
4.根据权利要求3所述的语音合成方法,其中,所述预置的、音素与语音波形单元的索引通过如下步骤得到:
对于所述音素序列样本中的每一个音素,基于该音素对应的声学特征,确定该音素对应的语音波形单元;
基于所述音素序列样本中的各个音素与语音波形单元的对应关系,建立音素与语音波形单元的索引。
5.根据权利要求1所述的语音合成方法,其中,所述预设的代价函数包括目标代价函数和连接代价函数,所述目标代价函数用于表征语音波形单元与所述声学特征的匹配程度,所述连接代价函数用于表征相邻的语音波形单元的连续程度。
6.根据权利要求5所述的语音合成方法,其中,所述对于所述音素序列中的每一个音素,基于预置的、音素与语音波形单元的索引,确定与该音素相对应的至少一个语音波形单元,并基于该音素对应的声学特征、预设的代价函数,确定所述至少一个语音波形单元中的目标语音波形单元,包括:
对于所述音素序列中的每一个音素,基于预置的、音素与语音波形单元的索引,确定与该音素相对应的至少一个语音波形单元;将该音素对应的声学特征作为目标声学特征,对于所述至少一个语音波形单元中的每一个语音波形单元,提取该语音波形单元的声学特征,基于所提取的声学特征和所述目标声学特征,确定所述目标代价函数的值;将满足预设条件的所述目标代价函数的值所对应的语音波形单元确定为该音素对应的候选语音波形单元;
基于所确定的各个候选语音波形单元所对应的声学特征和所述连接代价函数,利用维特比算法确定所述音素序列中的每一个音素对应的候选语音波形单元中的目标语音波形单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711205386.X/1.html,转载请声明来源钻瓜专利网。