[发明专利]一种用于个性化语音生成的语音转换方法在审

专利信息
申请号: 202210978891.2 申请日: 2022-08-16
公开(公告)号: CN115376533A 公开(公告)日: 2022-11-22
发明(设计)人: 简志华;章子旭;金宏辉;杨曼;吴超;吴迎笑 申请(专利权)人: 杭州电子科技大学
主分类号: G10L21/013 分类号: G10L21/013;G10L19/16
代理公司: 暂无信息 代理人: 暂无信息
地址: 310018 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 个性化 语音 生成 转换 方法
【权利要求书】:

1.一种用于个性化语音生成的语音转换方法,其特征在于,包括:

步骤1,训练转换模型,获取源说话人的语音数据库,提取出两个不同片段的源说话人Mel谱图序列Xu=[xu,xu+1,…,xu+N]和Xv=[xv,xv+1,…,xv+N],作为训练用的语音特征;其中u和v为Mel谱图序列开始的序号,N为提取的Mel谱图序列长度;

步骤2,将提取的Mel谱图序列经过内容编码器Ec将Mel谱图编码为Mel谱图隐藏序列,表示为:

Cu=Ec(Xu) ⑼

Cv=Ec(Xv) ⑽

步骤3,同时将这两个不同片段的源说话人语音输入到说话人编码器Es得到说话人嵌入Su和Sv,表示为:

Su=Es(Xu) ⑾

Sv=Es(Xv) ⑿

步骤4,将对应片段的内容嵌入和说话人嵌入Cu、Su与Cv、Sv输入到音素时长转换器中,将Cu中的音素持续时长转换为Sv的音素持续时长,同理将Cv中的音素持续时长转换为Su的音素持续时长,输出得到音素持续时长转换后的Cu′和Cv′;

步骤5,将对应的Cu′、Su,Cv′、Sv输入解码器中利用总体损失函数Ltotal进行训练,其中为了使初始估计后重建Mel谱图的更精细,在解码器末端使用PostNet提高生成的Mel谱图的质量,总体损失函数如下所示:

Ltotal=LreconpLphodLd+Lcycle+Lid

完成训练;

步骤6,实际转换,获取原说话人语音Mel谱图X和目标说话人语音Mel谱图Y,将原说话人语音Mel谱图X输入内容编码器得到内容嵌入C,将目标说话人语音Mel谱图Y输入到说话人编码器并得到说话人嵌入S;

步骤7,将内容嵌入C和说话人嵌入S同时输入音素时长转换器中,得到音素持续时长转换后的内容嵌入C′;

步骤8,将音素持续时长转换后的内容嵌入C′和说话人嵌入S同时输入解码器中得到转换后的Mel谱图Y′;

步骤9,将步骤8中得到的转换Mel谱图Y′输入声码器中合成语音波形,获得与目标说话人相似的高质量语音。

2.根据权利要求1所述的一种用于个性化语音生成的语音转换方法,其特征在于,所述的步骤2包括以下子步骤:

子步骤A1,将Mel谱图隐藏序列Cmel输入音素预测器;

子步骤A2,使用音素预测器得到Mel谱图隐藏序列Cmel对应的音素标签序列

子步骤A3,将Mel谱图隐藏序列Cmel对应的音素标签序列同时输入下采样器中进行下采样去除说话人的音素持续时间信息,得到音素隐藏序列Cpho

子步骤A4,将经过说话人编码器得到的目标说话人信息输入时长预测器,得到目标说话人的音素持续时间序列

子步骤A5,将音素隐藏序列Cpho和目标说话人的音素持续时间序列同时输入上采样器进行上采样添加目标说话人的音素持续时间信息,得到时长转换后的Mel谱图隐藏序列

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210978891.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top