[发明专利]跨语言语音转换系统和方法在审
申请号: | 202011581807.0 | 申请日: | 2020-12-28 |
公开(公告)号: | CN113129914A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 杰瓦特·耶尔利 | 申请(专利权)人: | 明日基金知识产权有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L25/30 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 肖华 |
地址: | 卢森堡巴*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 语音 转换 系统 方法 | ||
1.一种由机器学习系统执行的跨语言语音转换的方法,其特征在于,所述方法包括:
由语音特征提取器接收第一语言的第一语音音频段和第二语言的第二语音音频段;
由所述语音特征提取器分别从所述第一语音音频段和所述第二语音音频段提取音频特征,所述音频特征包括第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征;
经由生成性对抗网络(GAN)系统的生成器从受训练的数据集生成第三语音候选,所述第三语音候选具有所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征,其中,所述第三语音候选说所述第二语言;
经由所述GAN系统的一个或多个鉴别器将所述第三语音候选与包括所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征的地面实况数据进行比较;并且
将比较步骤的结果提供回所述生成器,用于润色所述第三语音候选。
2.根据权利要求1所述的方法,其特征在于,所述与说话者相关的声学特征包括与声道特征相关的短期音段特征,并且所述与说话者无关的语言特征包括与多于一个音段上的声学特性相关的超音段特征。
3.根据权利要求1所述的方法,其特征在于,还包括生成多个第三语音候选,每个第三语音候选包括不同级别的第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征。
4.根据权利要求3所述的方法,其特征在于,还包括选择所述多个第三语音候选中的一个或多个第三语音候选,用于在语音翻译期间使用。
5.根据权利要求4所述的方法,其特征在于,还包括将所选择的所述一个或多个第三语音候选存储在数据库中,所述数据库连接到所述机器学习系统,并且包括多个不同的受训练的第三语音。
6.根据权利要求1所述的方法,其特征在于,所述GAN系统是变分自动编码WassersteinGAN(VAW-GAN)系统或循环一致GAN(CycleGAN)系统。
7.根据权利要求1所述的方法,其特征在于,所述第一语音是说所述第一语言的原始演员语音,并且其中,所述第二语音是说所述第二语言的配音演员。
8.根据权利要求7所述的方法,其特征在于,在电影语音翻译期间实施为使得能够选择原始版本、具有所述原始演员语音的配音版本或具有所述配音演员语音的配音版本。
9.根据权利要求8所述的方法,其特征在于,还包括:
生成多个第三语音候选,每个第三语音候选包括不同级别的第一语音的与说话者相关的声学特征和第二语音的与说话者无关的语言特征;
在生成多个配音版本音频文件时使用所生成的所述多个第三语音候选,所述多个配音版本音频文件包括不同级别的所述第一语音的与说话者相关的声学特征和所述第二语音的与说话者无关的语言特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明日基金知识产权有限公司,未经明日基金知识产权有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011581807.0/1.html,转载请声明来源钻瓜专利网。