[发明专利]语音合成方法、装置和电子设备在审
申请号: | 202110632585.9 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113327577A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 赵情恩 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 电子设备 | ||
1.一种语音合成方法,包括:
获取目标用户的模型参数;
将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数,生成第二目标语音合成模型;
获取待合成文本,并将所述待合成文本输入至所述第二目标语音合成模型,
其中,所述第二目标语音合成模型用于合成目标语音,所述目标语音具有所述目标用户的语音特征。
2.根据权利要求1所述的方法,其中,所述第二目标语音合成模型用于获取所述待合成文本的目标声学特征,并根据所述目标用户的模型参数对所述目标声学特征进行归一化处理,根据归一化处理后的所述目标声学特征合成所述目标语音。
3.根据权利要求1所述的方法,其中,所述方法还包括:
获取所述目标用户的样本语音和所述样本语音对应的标注文本;
根据所述样本语音和所述标注文本对所述第一目标语音合成模型中的所述待更新模型参数进行调整,直至达到调整结束条件,将最后一次调整后的所述待更新模型参数作为所述目标用户的模型参数。
4.根据权利要求1所述的方法,其中,所述方法还包括:
获取所述目标用户的用户标识;
将所述目标用户的模型参数存储至目标存储空间,并建立所述目标存储空间的目标空间标识与所述用户标识之间的关联关系。
5.根据权利要求4所述的方法,其中,所述获取目标用户的模型参数,包括:
获取所述目标用户的用户标识;
以所述目标用户的用户标识作为查询键值,获取所述目标空间标识;
根据所述目标空间标识,在所述目标存储空间中获取所述目标用户的模型参数。
6.根据权利要求2所述的方法,其中,所述获取所述待合成文本的目标声学特征,包括:
获取所述待合成文本的音素特征;
获取所述目标用户的样本语音的第一声学特征;
根据所述音素特征和所述第一声学特征,得到所述目标声学特征。
7.根据权利要求6所述的方法,其中,所述根据所述音素特征和所述第一声学特征,得到所述目标声学特征,包括:
根据所述音素特征和所述第一声学特征,得到第二声学特征;
对所述第二声学特征进行至少一个特征维度的调整,得到所述目标声学特征。
8.根据权利要求7所述的方法,其中,所述获取所述待合成文本的目标声学特征,包括:
将所述待合成文本输入至所述第二目标语音合成模型中的音素特征提取层,基于所述音素特征提取层对所述待合成文本进行音素特征提取,得到所述待合成文本的音素特征;
将所述音素特征、所述目标用户的样本语音输入至所述第二目标语音合成模型中的声学特征提取层,基于所述声学特征提取层对所述目标用户的样本语音进行特征提取,得到第一声学特征,将所述音素特征和所述第一声学特征的和值作为第二声学特征;
将所述第二声学特征输入至所述第二目标语音合成模型中的特征调整层,基于所述特征调整层对所述第二声学特征进行至少一个特征维度的调整,得到所述目标声学特征。
9.根据权利要求6所述的方法,其中,所述第一声学特征包括用户粒度的声学特征、句子粒度的声学特征和音素粒度的声学特征中的至少一种。
10.根据权利要求7或8所述的方法,其中,所述特征维度包括时长、基音频率、能量中的至少一种。
11.一种语音合成模型的训练方法,包括:
获取样本用户的样本语音和所述样本语音对应的标注文本;
根据所述样本语音和所述标注文本对初始语音合成模型进行训练,生成候选语音合成模型;
为所述候选语音合成模型配置待更新的模型参数;
根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练,生成第一目标语音合成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632585.9/1.html,转载请声明来源钻瓜专利网。