[发明专利]语音转换方法、装置、计算机设备及计算机可读存储介质有效
申请号: | 201980003120.8 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111108558B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 刘洋;李柏;丁万;黄东延;熊友军 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/27;G10L25/03 |
代理公司: | 深圳中细软知识产权代理有限公司 44528 | 代理人: | 彭佳伟 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 转换 方法 装置 计算机 设备 可读 存储 介质 | ||
本发明实施例公开了一种语音转换方法、装置、计算机设备及计算机可读存储介质。本发明中语音转换方法包括:获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;对所述待转换语音进行特征提取,得到待转换特征;将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。该语音转换方法不仅可以在离线状态下高质量进行语音转换,而且运行速度快,可以实现语音的实时转换。
技术领域
本发明涉及音频处理技术领域,尤其涉及一种语音转换方法、装置、计算机设备及计算机可读存储介质。
背景技术
语音转换技术是一种保持语义内容不变的情况下,将源语音转换为目标语音的技术,其中,源语音为第一人声发出的语音,目标语音为第二人声发出的语音,也即将第一人声发出的源语音通过语音转换技术,转换为语义相同的第二人声发出的目标语音。
随着深度神经网络技术的快速发展,基于深度学习的语音转换方法转换的语音相似度高且语音质量好、流畅度好。目前基于深度学习的语音转换方法主要包括两个步骤,首先用大量的语音数据训练转换模型,再用训练好的模型来进行语音转换。因为训练对计算资源要求很高,离线端的资源很少,性能很低,用来做训练容易出现资源耗尽的情况,即使能够训练,效率也很低,时间成本太高,难以使用。因此,目前基于深度学习的语音转换功能要依托在线的高性能的服务器才能够实现,离线状态下无法使用。
发明内容
基于此,有必要针对上述问题,提出了一种离线状态下仍能够进行高质量语音转换的语音转换方法、装置、计算机设备及存储介质。
一种语音转换方法,所述方法包括:
获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
对所述待转换语音进行特征提取,得到待转换特征;
将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
一种语音转换的装置,所述装置包括:
获取模块,用于获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
格式转换模块,用于将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
特征提取模块,用于对所述待转换语音进行特征提取,得到待转换特征;
特征转换模块,用于将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
结果模块,用于根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
对所述待转换语音进行特征提取,得到待转换特征;
将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980003120.8/2.html,转载请声明来源钻瓜专利网。