[发明专利]一种用于个性化语音生成的语音转换方法在审

申请号：	202210978891.2	申请日：	2022-08-16
公开（公告）号：	CN115376533A	公开（公告）日：	2022-11-22
发明（设计）人：	简志华;章子旭;金宏辉;杨曼;吴超;吴迎笑	申请（专利权）人：	杭州电子科技大学
主分类号：	G10L21/013	分类号：	G10L21/013;G10L19/16
代理公司：	暂无信息	代理人：	暂无信息
地址：	310018 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于个性化语音生成转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于个性化语音生成的语音转换方法，其特征在于，包括：

步骤1，训练转换模型，获取源说话人的语音数据库，提取出两个不同片段的源说话人Mel谱图序列X_u＝[x_u,x_u+1,…,x_u+N]和X_v＝[x_v,x_v+1,…,x_v+N]，作为训练用的语音特征；其中u和v为Mel谱图序列开始的序号，N为提取的Mel谱图序列长度；

步骤2，将提取的Mel谱图序列经过内容编码器E_c将Mel谱图编码为Mel谱图隐藏序列，表示为：

C_u＝E_c(X_u) ⑼

C_v＝E_c(X_v) ⑽

步骤3，同时将这两个不同片段的源说话人语音输入到说话人编码器E_s得到说话人嵌入S_u和S_v，表示为：

S_u＝E_s(X_u) ⑾

S_v＝E_s(X_v) ⑿

步骤4，将对应片段的内容嵌入和说话人嵌入C_u、S_u与C_v、S_v输入到音素时长转换器中，将C_u中的音素持续时长转换为S_v的音素持续时长，同理将C_v中的音素持续时长转换为S_u的音素持续时长，输出得到音素持续时长转换后的C_u′和C_v′；

步骤5，将对应的C_u′、S_u，C_v′、S_v输入解码器中利用总体损失函数L_total进行训练，其中为了使初始估计后重建Mel谱图的更精细，在解码器末端使用PostNet提高生成的Mel谱图的质量，总体损失函数如下所示：

L_total＝L_recon+λ_pL_pho+λ_dL_d+L_cycle+L_id ⒀

完成训练；

步骤6，实际转换，获取原说话人语音Mel谱图X和目标说话人语音Mel谱图Y，将原说话人语音Mel谱图X输入内容编码器得到内容嵌入C，将目标说话人语音Mel谱图Y输入到说话人编码器并得到说话人嵌入S；

步骤7，将内容嵌入C和说话人嵌入S同时输入音素时长转换器中，得到音素持续时长转换后的内容嵌入C′；

步骤8，将音素持续时长转换后的内容嵌入C′和说话人嵌入S同时输入解码器中得到转换后的Mel谱图Y′；

步骤9，将步骤8中得到的转换Mel谱图Y′输入声码器中合成语音波形，获得与目标说话人相似的高质量语音。

2.根据权利要求1所述的一种用于个性化语音生成的语音转换方法，其特征在于，所述的步骤2包括以下子步骤：

子步骤A1，将Mel谱图隐藏序列C_mel输入音素预测器；

子步骤A2，使用音素预测器得到Mel谱图隐藏序列C_mel对应的音素标签序列

子步骤A3，将Mel谱图隐藏序列C_mel对应的音素标签序列同时输入下采样器中进行下采样去除说话人的音素持续时间信息，得到音素隐藏序列C_pho；

子步骤A4，将经过说话人编码器得到的目标说话人信息输入时长预测器，得到目标说话人的音素持续时间序列

子步骤A5，将音素隐藏序列C_pho和目标说话人的音素持续时间序列同时输入上采样器进行上采样添加目标说话人的音素持续时间信息，得到时长转换后的Mel谱图隐藏序列

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210978891.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载