[发明专利]一种训练方法、语音转换方法及装置和电子设备有效

申请号：	202210434326.X	申请日：	2022-04-24
公开（公告）号：	CN114678032B	公开（公告）日：	2022-09-27
发明（设计）人：	贺刚;陈昌滨	申请（专利权）人：	北京世纪好未来教育科技有限公司
主分类号：	G10L21/013	分类号：	G10L21/013;G10L13/08;G10L19/20;G10L25/24
代理公司：	北京鼎承知识产权代理有限公司 11551	代理人：	周娟
地址：	100872 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种训练方法语音转换装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供一种训练方法、语音转换方法及装置和电子设备，涉及语音转换技术领域。所述训练方法包括：利用编码器从音频文本提取第一分布参数，利用解码器处理音频频谱信息和音频音色信息，获得第一隐变量，基于单调对齐搜索算法更新编码器的网络参数和解码器的网络参数，直到第一隐变量服从第一分布参数。由于解码器为基于流的生成模型，使得音频转换模型可以快速转换超长文本语音转换。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种训练方法、语音转换方法及装置和电子设备。

背景技术

语音转换(Voice Conversion)是一种在说话内容不变基础上，将原始说话人的语音音色迁移到目标说话人的语音音色的方式，其在电影配音、角色模仿、复刻人物音色、教育领域等方面都有重要的应用。

以教育领域为例，在直播教学过程中可以为用户提供IP定制、个性化定制音色等变声服务。目前，可以通过单样本语音转换复制音色，以降低对语音转换训练数据的要求，并显著节省计算资源。

发明内容

根据本公开的一方面，提供了一种训练方法，用于训练语音转换模型，所述语音转换模型包括编码器和解码器，所述解码器为基于流的生成模型，所述方法包括：

利用所述编码器从语音文本提取第一分布参数；

利用所述解码器处理语音频谱信息和语音音色信息，获得第一隐变量，所述语音文本、所述语音频谱信息和所述语音音色信息来自同一语音；

基于单调对齐搜索算法更新所述编码器的网络参数和所述解码器的网络参数，直到所述第一隐变量服从所述语音文本的第一分布参数。

根据本公开的另一方面，提供了一种语音转换方法，应用本公开示例性所述方法训练的语音转换模型，所述方法包括：

获取原始语音；

利用解码器处理同一所述原始语音的频谱信息和原始音色信息，获得原始语音的隐变量；

基于同一所述原始语音的帧数和所述隐变量，采用单调对齐搜索算法获得目标分布参数；

利用解码器处理所述隐变量、所述目标分布参数和和目标音色信息，获得转换后的语音信息。

根据本公开的另一方面，提供了一种训练装置，用于训练语音转换模型，所述语音转换模型包括编码器和解码器，所述解码器为基于流的生成模型，所述装置包括：

提取模块，用于利用所述编码器从语音文本提取第一分布参数；

获取模块，用于利用所述解码器处理语音频谱信息和语音音色信息，获得第一隐变量，所述语音文本、所述语音频谱信息和所述语音音色信息来自同一语音；

更新模块，用于基于单调对齐搜索算法更新所述编码器的网络参数和所述解码器的网络参数，直到所述第一隐变量服从所述语音文本的第一分布参数。

根据本公开的另一方面，提供了一种语音转换装置，应用本公开示例性所述方法训练的语音转换模型，所述装置包括：

获取模块，用于获取原始语音；

处理模块，用于利用解码器处理同一所述原始语音的频谱信息和原始音色信息，获得原始语音的隐变量；

对齐模块，用于基于同一所述原始语音的帧数和所述隐变量，采用单调对齐搜索算法获得目标分布参数；

所述处理模块还用于利用解码器处理所述隐变量、所述目标分布参数和目标音色信息，获得转换后的语音信息。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及，

存储程序的存储器，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司，未经北京世纪好未来教育科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210434326.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种训练方法、语音转换方法及装置和电子设备有效

专利文献下载