[发明专利]基于对抗网络的声音样本生成方法、装置、设备及介质在审

申请号：	202111128447.3	申请日：	2021-09-26
公开（公告）号：	CN113870831A	公开（公告）日：	2021-12-31
发明（设计）人：	郭洋;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/04	分类号：	G10L13/04;G10L25/30;G10L25/03
代理公司：	深圳众鼎专利商标代理事务所(普通合伙) 44325	代理人：	谭果林
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于对抗网络声音样本生成方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请适用于人工智能技术领域，提供了一种基于对抗网络的声音样本生成的方法、装置、设备及介质，其中，一种基于对抗网络的声音样本生成的方法包括以下步骤：利用对抗网络模型中的生成器，对人声语音样本对应的梅尔频谱进行多尺度特征融合操作，得到用于表征合成语音的新的梅尔频谱；利用多分辨率梅尔谱损失函数，得到目标损失值；基于所述目标损失值，得到训练后的对抗网络模型；利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟，得到声音样本。应用本申请实施例所提供的技术方案，提高了训练对抗网络模型收敛的速度，且利用该训练后的模型生成的声音样本与真实人声效果更接近，相似度较高。

技术领域

本申请涉及人工智能领域，特别涉及一种基于对抗网络的声音样本生成方法、装置、设备及介质。

背景技术

随着人工智能技术的发展，神经网络在语音合成技术上的完善，模拟真实人声的语音合成技术在电话销售、人工智能客服、语音播报、导航播报等方面有着广泛的应用。现有的模拟真实人声的方式是对人声特征进行采集，利用得到的人声特征训练模型。但是该训练过程中语音的潜在差异难以量化，导致模型收敛过程及其缓慢，且利用该训练后的模型生成的声音样本与真实人声样本之间存在较大差异。

发明内容

本申请的目的在于提供一种基于对抗网络的声音样本生成方法、装置、设备及介质，以解决现有技术中存在的现有模型在训练过程中语音的潜在差异难以量化，导致模型收敛过程及其缓慢，且利用该训练后的模型生成的声音样本与真实人声样本之间存在较大差异的技术问题。

本申请实施例的第一方面提供了一种基于对抗网络的声音样本生成方法，包括：

利用对抗网络模型中的生成器，对人声语音样本对应的梅尔频谱进行多尺度特征融合操作，得到用于表征合成语音样本的新的梅尔频谱；

利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值，并根据所述损失值得到目标损失值；

基于所述目标损失值对所述对抗网络模型进行训练，得到训练后的对抗网络模型；

利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟，得到声音样本。

本申请实施例的第二方面提供了一种基于对抗网络的声音样本生成装置，包括：

提取模块，用于利用对抗网络模型中的生成器，基于人声语音样本对应的梅尔频谱进行多尺度特征融合操作，得到用于表征合成语音样本的新的梅尔频谱；

优化模块，用于利用多分辨率梅尔谱损失函数，计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值，并根据所述损失值得到目标损失值；

训练模块，用于基于所述目标损失值对所述对抗网络模型进行训练，得到训练后的对抗网络模型；

模拟模块，用于利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟，得到声音样本。