[发明专利]并行语音合成方法、装置、设备以及计算机可读存储介质在审
申请号: | 201910569448.8 | 申请日: | 2019-06-27 |
公开(公告)号: | CN112151003A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 王文富;孙晨曦;孙涛;陈熙;王桂彬;贾磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;丁君军 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行 语音 合成 方法 装置 设备 以及 计算机 可读 存储 介质 | ||
1.一种并行语音合成方法,包括:
将一段文本拆分成多个片段;
基于所述一段文本,获得所述多个片段的用于循环神经网络的多个初始隐状态;以及
基于所述多个初始隐状态和所述多个片段的输入特征,并行合成所述多个片段。
2.根据权利要求1所述的方法,其中所述多个片段中的每个片段是音素、音节和韵律词中的任一项,并且其中并行合成所述多个片段包括:
基于每个片段的初始隐状态和输入特征,以自回归方式串行合成每个片段。
3.根据权利要求1所述的方法,其中获得所述多个片段的用于循环神经网络的多个初始隐状态包括:
确定所述多个片段中的每个片段的音素级别输入特征;以及
基于每个片段的音素级别输入特征,使用经训练的隐状态预测模型来预测每个片段的初始隐状态。
4.根据权利要求3所述的方法,其中并行合成所述多个片段包括:
确定所述多个片段中的每个片段的帧级别输入特征;
基于所述帧级别输入特征,使用声学条件模型来获得采样点级别特征;以及
基于每个片段的初始隐状态和所述采样点级别特征,使用基于循环神经网络的语音合成模型来合成每个片段。
5.根据权利要求4所述的方法,其中使用声学条件模型来获得采样点级别特征包括:
通过重复上采样获得所述采样点级别特征。
6.根据权利要求1所述的方法,还包括:
使用训练数据来训练基于循环神经网络的语音合成模型;以及
使用所述训练数据和经训练的所述语音合成模型来训练隐状态预测模型。
7.根据权利要求6所述的方法,其中训练所述基于循环神经网络的语音合成模型包括:
获得所述训练数据中的训练文本的帧级别输入特征和对应的训练语音的语音采样点,所述帧级别输入特征包括音素上下文、韵律上下文、帧位置和基频中的至少一项;以及
使用所述训练文本的所述帧级别输入特征和所述训练语音的所述语音采样点,来训练所述语音合成模型。
8.根据权利要求7所述的方法,其中训练所述隐状态预测模型包括:
获得所述训练文本的音素级别输入特征,所述音素级别输入特征包括音素上下文和韵律上下文中的至少一项;
从经训练的所述语音合成模型获得每个音素的音素级别隐状态;以及
使用所述音素级别输入特征和所述音素级别隐状态来训练所述隐状态预测模型。
9.根据权利要求8所述的方法,其中训练所述隐状态预测模型还包括:
对所述音素级别隐状态进行聚类以生成音素级别聚类隐状态;以及
使用所述音素级别输入特征和所述音素级别聚类隐状态来训练所述隐状态预测模型。
10.根据权利要求8所述的方法,其中从经训练的所述语音合成模型获得每个音素的音素级别隐状态包括:
将与每个音素相对应的多个采样点中的第一个采样点的初始隐状态确定为每个音素的音素级别隐状态。
11.一种并行语音合成装置,包括:
片段拆分模块,被配置为将一段文本拆分成多个片段;
隐状态获得模块,被配置为基于所述一段文本,获得所述多个片段的用于循环神经网络的多个初始隐状态;以及
并行语音合成模块,被配置为基于所述多个初始隐状态和所述多个片段的输入特征,并行合成所述多个片段。
12.根据权利要求11所述的装置,其中所述多个片段中的每个片段是音素、音节和韵律词中的任一项,并且所述并行语音合成模块包括:
串行语音合成模块,被配置为基于每个片段的初始隐状态和输入特征,以自回归方式串行合成每个片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910569448.8/1.html,转载请声明来源钻瓜专利网。