[发明专利]语音合成方法、装置、电子设备及存储介质在审
申请号: | 202210885008.5 | 申请日: | 2022-07-26 |
公开(公告)号: | CN115394283A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 李睿端;李健;陈明;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/30;G10L25/51;G10L15/06 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 电子设备 存储 介质 | ||
本申请是关于一种语音合成方法、装置、电子设备及可读存储介质,包括:通过获取文本数据和文本数据对应的音频数据;根据文本数据和目标音素编码获取拼接编码;将音素编码和目标音素编码进行拼接,得到拼接编码;将拼接编码输入生成模型中生成模拟音频数据,输出第一损失函数;根据第一损失函数对判别模型进行训练,得到训练后的判别模型;将模拟音频数据和所述音频数据输入训练后的判别模型进行判断;根据判断结果对生成模型进行迭代优化,直至模拟音频数据在判别模型中输出的判断结果等于预设阈值,输出目标音频数据。本申请通过生成模型和判别模型在更多的音素组合上的表现,使其更加贴近发言人的真实说话效果。
技术领域
本公开涉及语音技术领域,尤其涉及语音合成方法、装置、电子设备及存储介质。
背景技术
目前,语音合成技术(text-to-speech,TTS),即实现输入文本输出对应音频的过程。通常情况下,制作一个TTS音库,需要目标发言人在专业录音棚里,使用专业录音设备,在保持稳定的嗓音状况下,录制一定量的录音并进行人工标注后,再进行训练。录音量根据不同的技术路线而有所不同,传统的选音拼接方式,需要播音员录制20-50小时,参数合成和神经网络路线所需的录音量较少,但是至少也需要2个小时。这种对于录音量的要求,在面向企业(To Business,ToB)场景下是比较可行的。但是在面向普通用户(To Consumer,ToC)的场景下,这种制作方式是不现实的。因此,利用极少数据集进行语音合成这一课题,变得尤为重要。
为解决上述问题,现有技术中通过借助其他人的训练语料,训练一个平均模型,该模型有表征每个音素特征的能力,将目标人的数据送给模型,并且将发言人特征作为特别的输入也输送给模型,让模型加固对该发言人的特征还原能力,从而达到该任务要求,但是这种结构的问题在于,即便是运用了多人模型,音素覆盖不足的问题仍然会影响到模型的最终效果。
发明内容
为克服相关技术中存在的问题,本公开提供一种语音合成方法、装置、电子设备及存储介质。
根据本公开实施例的第一方面,提供一种语音合成方法,包括:
从目标数据集中获取文本数据和所述文本数据对应的音频数据;
根据所述文本数据和目标音素编码获取拼接编码;
将所述音素编码和目标音素编码进行拼接,得到拼接编码;
将所述拼接编码输入生成模型中生成模拟音频数据,输出第一损失函数;
根据所述第一损失函数对判别模型进行训练,得到训练后的判别模型;
将所述模拟音频数据和所述音频数据输入训练后的判别模型进行判断;
根据判断结果对所述生成模型进行迭代优化,直至所述模拟音频数据在所述判别模型中输出的判断结果等于预设阈值,输出目标音频数据。
可选的,所述将所述拼接编码输入生成模型中生成模拟音频数据,输出第一损失函数包括:
根据所述拼接编码进行向量化处理,得到拼接向量;
将所述拼接向量转换成中间特征,由所述中间特征与第一时刻的目标特征输出生成第二时刻的目标特征,根据目标特征生成模拟音频数据以及第一损失函数。
可选的,所述根据判断结果对所述生成模型进行迭代优化包括:
获取判别模型的第二损失函数;
根据所述第二损失函数训练所述判别模型,冻结参数,根据所述判别模型的第二损失函数训练所述生成模型,进行迭代优化。
可选的,所述根据所述文本数据和目标音素编码获取拼接编码包括:
将所述文本数据转换成拼音序列,根据拼音序列获取对应的音素编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210885008.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种焊接用钢盘条的轧制方法
- 下一篇:一种电梯电磁感应平衡系统