[发明专利]针对病理嗓音的语音转换方法、装置和存储介质有效
申请号: | 202211226889.6 | 申请日: | 2022-10-09 |
公开(公告)号: | CN115294970B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 吴迪;楚明航;杨梦涛;马瑶瑶;王靖;徐超;范智玮;张晓俊;陶智 | 申请(专利权)人: | 苏州大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L19/02;G10L25/51 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 唐静芳 |
地址: | 215006 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 病理 嗓音 语音 转换 方法 装置 存储 介质 | ||
本申请公开了一种针对病理嗓音的语音转换方法、装置和存储介质,涉及声音处理技术领域,所述方法包括:获取训练样本;对于每个样本病理嗓音,获取所述样本病理嗓音的样本梅尔谱图;根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频;获取风格向量;将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器,通过所述生成器输出转换后的各个样本梅尔谱图;根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪;根据所述判别器的各个判别结果训练所述生成器和所述判别器,训练后的所述生成器用于对目标病理嗓音进行嗓音转换。解决了现有技术中病理嗓音的语音质量较差,无法被理解的问题。
技术领域
本发明涉及一种针对病理嗓音的语音转换方法、装置和存储介质,属于声音处理技术领域。
背景技术
作为语言的载体,语音是现实生活中传递信息的重要信号。包括语音相关专业人士、老年人、吸烟者、呼吸系统疾病患者、鼻部疾病患者、咽喉疾病患者等在内的部分人群存在不同程度的语音困难。通常情况下,患者发出的病理嗓音难以被普通人理解。
现有技术中,一些病理性声音患者可以通过手术改善其语音质量,然后手术可能会给患者造成一定的伤害。例如,在喉切除术的情况下,该过程不仅改变了患者的生活方式,而且还导致声带的切除和语言能力的丧失。
发明内容
本发明的目的在于提供一种针对病理嗓音的语音转换方法、装置和存储介质,用于解决现有技术中存在的问题。
为达到上述目的,本发明提供如下技术方案:
根据第一方面,本发明实施例提供了一种针对病理嗓音的语音转换方法,所述方法包括:
获取训练样本,所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音;
对于每个样本病理嗓音,获取所述样本病理嗓音的样本梅尔谱图;
根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频;
获取风格向量;
将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器,通过所述生成器输出转换后的各个样本梅尔谱图;
根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪;
根据所述判别器的各个判别结果训练所述生成器和所述判别器,训练后的所述生成器用于对目标病理嗓音进行嗓音转换。
可选地,所述根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频,包括:
对于每个样本梅尔谱图,将所述样本梅尔谱图输入至F0提取网络,通过所述F0提取网络提取所述样本病理嗓音的样本基频。
可选地,所述获取风格向量,包括:
获取随机采样的高斯分布向量;
将所述高斯分布向量输入至映射网络,通过所述映射网络生成所述风格向量。
可选地,所述获取风格向量,包括:
获取参考梅尔谱图;
将所述参考梅尔谱图输入至说话人编码器,通过所述说话人编码器生成所述风格向量。
可选地,所述根据所述判别器的各个判别结果训练所述生成器,包括:
获取第一损失因子,所述第一损失因子包括:对抗损失因子、对抗源损失因子、风格重构损失因子、风格多样化损失因子、F0一致性损失因子、语音一致性损失因子、范数一致性损失因子和循环一致性损失因子中的至少一种;
根据所述第一损失因子和所述各个判别结果训练所述生成器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211226889.6/2.html,转载请声明来源钻瓜专利网。