[发明专利]基于音频解耦和融合的零样本语音克隆方法及装置在审

申请号：	202211012716.4	申请日：	2022-08-23
公开（公告）号：	CN115497449A	公开（公告）日：	2022-12-20
发明（设计）人：	汤步洲;陈屹婷;李婉婷	申请（专利权）人：	哈尔滨工业大学（深圳）
主分类号：	G10L13/02	分类号：	G10L13/02;G10L25/18
代理公司：	深圳市添源创鑫知识产权代理有限公司 44855	代理人：	覃迎峰
地址：	518000 广东省深圳市南***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于音频解耦和融合的零样本语音克隆方法及装置，包括将目标说话人的音频进行声学特征提取获取声学特征梅尔谱；采用音频内容编码器和音频音色编码器分别分离出声学特征梅尔谱的音色信息和内容信息；将音色信息集合进行特征融合，得到说话人音色嵌入表示，使得最终地说话人嵌入尽可能包含目标说话人的音色信息；为了提高解耦能力，引入了互信息约束，使得提取到的内容嵌入和音色嵌入之间的耦合程度尽可能低；将说话人音色嵌入表示和文本输入到零样本语音克隆模型，合成对应文本且带有目标说话人音色的梅尔谱；最终将梅尔谱输入到声码器中换成人耳可听的波形信号。本发明方法能提高克隆语音的说话人相似度。
搜索关键词：	基于音频融合样本语音克隆方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学（深圳），未经哈尔滨工业大学（深圳）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202211012716.4/，转载请声明来源钻瓜专利网。

上一篇：任务卸载方法、装置、无人机、介质和产品
下一篇：数据采集方法、系统、云端服务器、车辆和存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于音频解耦和融合的零样本语音克隆方法及装置在审

专利文献下载