[发明专利]语音合成模型的生成方法、装置、设备及存储介质有效
申请号: | 201910881032.X | 申请日: | 2019-09-18 |
公开(公告)号: | CN110751941B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 王健宗;贺雯迪;彭话易;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 模型 生成 方法 装置 设备 存储 介质 | ||
本发明提供一种语音合成模型的生成方法、装置、设备及存储介质,即所述处理器获取所述存储模块中的待训练语音合成模型,并确定初始化模型参数;所述处理器获取所述存储模块中的待合成语音数据,输入至预设标准语音合成模型得到第一合成结果,输入至所述待训练语音合成模型得到第二合成结果;基于所述第一合成结果,计算所述第二合成结果的损失值,并判断所述第二合成结果的损失值是否小于第一预设阈值;若所述处理器判定小于所述第一预设阈值,则初始化模型参数确定目标参数,生成目标语音合成模型。本发明避免基于上一个样本点作为下一个样本点的输入,提升了语音合成模型的训练速度,提高了语音合成模型的训练效率。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种语音合成模型的生成方法、装置、设备及计算机可读存储介质。
背景技术
语音合成是通过机械方法以及电子方法产生人造语音的技术。语音合成技术是将计算机自己产生的、或外部输入的文字信息转变为用户可以识别的流利汉语口语输出的技术。目前,现有的基于卷积神经网络的语音合成模型,在语音合成时,依次生成音频中的每一个样本点,即生成时需要上一个生成的点作为下一个点的输入,这就大大限制了语音合成模型的训练速度,降低了语音合成模型的训练效率。因此,如何解决现有语音合成模型的训练效率低下的技术问题,成为了目前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种语音合成模型的生成方法、装置、设备及计算机可读存储介质,旨在解决现有语音合成模型的训练效率低下的技术问题。
为实现上述目的,本发明提供一种语音合成模型的生成方法,所述语音合成模型的生成方法应用于语音合成模型的生成系统,所述语音合成模型的生成系统包括缓存模块、存储模块以及处理器,所述语音合成模型的生成方法包括以下步骤:
所述处理器在接收到语音合成模型的生成指令时,获取所述存储模块中的待训练语音合成模型,并确定所述待训练语音合成模型的初始化模型参数;
所述处理器获取所述存储模块中的语音数据样本,作为待合成语音数据,将所述待合成语音数据输入至预设标准语音合成模型得到第一合成结果,并将所述待合成语音数据输入至所述待训练语音合成模型得到第二合成结果;
所述处理器将所述第一合成结果以及所述第二合成结果存储至所述缓存模块,基于所述第一合成结果,计算所述第二合成结果的损失值,并判断所述第二合成结果的损失值是否小于第一预设阈值;
若所述处理器判定所述第二合成结果的损失值小于所述第一预设阈值,则将所述第二合成结果对应的初始化模型参数确定为所述待训练语音合成模型的目标参数,基于所述目标参数生成目标语音合成模型。
可选地,所述处理器将所述第一合成结果以及所述第二合成结果存储至所述缓存模块,基于所述第一合成结果,计算所述第二合成结果的损失值,并判断所述第二合成结果的损失值是否小于第一预设阈值的步骤包括:
所述处理器获取所述第一合成结果对应的第一结果概率分布,以及所述第二合成结果对应的第二结果概率分布,并将所述第一结果概率分布以及所述第二结果概率分布存储至所述缓存模块;
所述处理器根据预设KL散度计算公式计算所述第一合成结果与所述第二合成结果对应的散度值,作为所述第二合成结果的损失值,其中,所述KL散度计算公式为:
DRL(PS||PT)=H(FS,PT)-H(PS);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910881032.X/2.html,转载请声明来源钻瓜专利网。