[发明专利]语音转换方法、装置、设备及存储介质在审
申请号: | 202110711815.0 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113345450A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 张旭龙;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L25/18;G10L25/30 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 转换 方法 装置 设备 存储 介质 | ||
本发明涉及音频转换领域,公开了一种语音转换方法、装置、设备及存储介质,用于提高语音转换的准确率。所述语音转换方法包括:对源语音数据进行预处理,得到初始梅尔频谱;对源语音数据进行说话人类别提取,得到第一说话人类别;对初始梅尔频谱、第一说话人类别和预置的位置信息进行编码处理,得到语音特征向量;将语音特征向量输入预置的语音转换模型进行语音转换,得到目标梅尔频谱;将目标梅尔频谱输入预置的分类器进行说话人类别检测,得到第二说话人类别,并判断第二说话人类别与第一说话人类别是否相同;若相同,则对目标梅尔频谱进行语音转换,得到目标语音数据。此外,本发明还涉及区块链技术,目标语音数据可存储于区块链节点中。
技术领域
本发明涉及音频转换领域,尤其涉及一种语音转换方法、装置、设备及存储介质。
背景技术
随着科学技术的发展,多种即时通信软件可以首先录制用户的语音信息,然后将录制的语音信息转换为各种音色的语音,并将转换得到的语音发送给其他用户,从而提高用户之间交流的趣味性。
现有方案对语音进行转换时,通常通过循环神经网络模型(recurrent neuralnetwork,RNN)对输入的语音进行编码再解码,得到目标语音数据,使用传统的循环神经网络模型进行编码和解码很难解决长时依赖问题,容易影响转换后句子整体的韵律,导致转换后的语音自然度差,即现有方案转换得到的语音准确率低。
发明内容
本发明提供了一种语音转换方法、装置、设备及存储介质,用于提高语音转换的准确率。
本发明第一方面提供了一种语音转换方法,所述语音转换方法包括:获取待处理的源语音数据,并对所述源语音数据进行预处理,得到初始梅尔频谱;对所述源语音数据进行说话人类别提取,得到第一说话人类别;对所述初始梅尔频谱、所述第一说话人类别和预置的位置信息进行编码处理,得到语音特征向量;将所述语音特征向量输入预置的语音转换模型进行语音转换,得到目标梅尔频谱;将所述目标梅尔频谱输入预置的分类器进行说话人类别检测,得到所述目标梅尔频谱对应的第二说话人类别,并判断所述第二说话人类别与所述第一说话人类别是否相同;若所述第二说话人类别与所述第一说话人类别相同,则对所述目标梅尔频谱进行语音转换,得到目标语音数据。
可选的,在本发明第一方面的第一种实现方式中,所述获取待处理的源语音数据,并对所述源语音数据进行预处理,得到初始梅尔频谱,包括:从预设的语音数据库中读取待处理的源语音数据;对所述源语音数据进行短时傅里叶变换,得到所述源语音数据对应的语音频谱;通过预置的滤波器对所述语音频谱进行滤波操作,得到所述源语音数据对应的初始梅尔频谱。
可选的,在本发明第一方面的第二种实现方式中,所述对所述源语音数据进行说话人类别提取,得到第一说话人类别,包括:对所述源语音数据进行分帧,得到多个语音帧;对所述多个语音帧进行预增强处理和加窗处理,得到每个语音帧对应的声学特征;基于每个语音帧对应的声学特征生成与所述源语音数据对应的第一说话人类别。
可选的,在本发明第一方面的第三种实现方式中,所述对所述初始梅尔频谱、所述第一说话人类别和预置的位置信息进行编码处理,得到语音特征向量,包括:对所述初始梅尔频谱进行独热向量编码,得到编码向量;按照预置编码规则,将所述第一说话人类别和预置的位置信息嵌入所述编码向量,得到语音特征向量。
可选的,在本发明第一方面的第四种实现方式中,所述将所述语音特征向量输入预置的语音转换模型进行语音转换,得到目标梅尔频谱,包括:将所述语音特征向量输入预置的语音转换模型中卷积神经网络,通过所述卷积神经网络对所述语音特征向量进行高层次的特征提取,得到高层次特征向量;将所述高层次特征向量输入所述语音转换模型中的双向长短时记忆网络,通过所述双向长短时记忆网络对所述高层次特征向量进行处理,得到音节序列和拼音序列;将所述音节序列和所述拼音序列输入所述语音转换模型中的前序编解码预测器进行输入序列到输出序列的转换,得到目标梅尔频谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110711815.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本纠错的方法、装置、电子设备及存储介质
- 下一篇:一种呼吸训练器