[发明专利]语音转换方法、装置、设备及存储介质在审
申请号: | 202110711815.0 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113345450A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 张旭龙;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L25/18;G10L25/30 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 转换 方法 装置 设备 存储 介质 | ||
1.一种语音转换方法,其特征在于,所述语音转换方法包括:
获取待处理的源语音数据,并对所述源语音数据进行预处理,得到初始梅尔频谱;
对所述源语音数据进行说话人类别提取,得到第一说话人类别;
对所述初始梅尔频谱、所述第一说话人类别和预置的位置信息进行编码处理,得到语音特征向量;
将所述语音特征向量输入预置的语音转换模型进行语音转换,得到目标梅尔频谱;
将所述目标梅尔频谱输入预置的分类器进行说话人类别检测,得到所述目标梅尔频谱对应的第二说话人类别,并判断所述第二说话人类别与所述第一说话人类别是否相同;
若所述第二说话人类别与所述第一说话人类别相同,则对所述目标梅尔频谱进行语音转换,得到目标语音数据。
2.根据权利要求1所述的语音转换方法,其特征在于,所述获取待处理的源语音数据,并对所述源语音数据进行预处理,得到初始梅尔频谱,包括:
从预设的语音数据库中读取待处理的源语音数据;
对所述源语音数据进行短时傅里叶变换,得到所述源语音数据对应的语音频谱;
通过预置的滤波器对所述语音频谱进行滤波操作,得到所述源语音数据对应的初始梅尔频谱。
3.根据权利要求1所述的语音转换方法,其特征在于,所述对所述源语音数据进行说话人类别提取,得到第一说话人类别,包括:
对所述源语音数据进行分帧,得到多个语音帧;
对所述多个语音帧进行预增强处理和加窗处理,得到每个语音帧对应的声学特征;
基于每个语音帧对应的声学特征生成与所述源语音数据对应的第一说话人类别。
4.根据权利要求1所述的语音转换方法,其特征在于,所述对所述初始梅尔频谱、所述第一说话人类别和预置的位置信息进行编码处理,得到语音特征向量,包括:
对所述初始梅尔频谱进行独热向量编码,得到编码向量;
按照预置编码规则,将所述第一说话人类别和预置的位置信息嵌入所述编码向量,得到语音特征向量。
5.根据权利要求1所述的语音转换方法,其特征在于,所述将所述语音特征向量输入预置的语音转换模型进行语音转换,得到目标梅尔频谱,包括:
将所述语音特征向量输入预置的语音转换模型中卷积神经网络,通过所述卷积神经网络对所述语音特征向量进行高层次的特征提取,得到高层次特征向量;
将所述高层次特征向量输入所述语音转换模型中的双向长短时记忆网络,通过所述双向长短时记忆网络对所述高层次特征向量进行处理,得到音节序列和拼音序列;
将所述音节序列和所述拼音序列输入所述语音转换模型中的前序编解码预测器进行输入序列到输出序列的转换,得到目标梅尔频谱。
6.根据权利要求1所述的语音转换方法,其特征在于,所述将所述目标梅尔频谱输入预置的分类器进行说话人类别检测,得到所述目标梅尔频谱对应的第二说话人类别,并判断所述第二说话人类别与所述第一说话人类别是否相同,包括:
将所述目标梅尔频谱输入预置的分类器中两层循环神经网络进行特征提取,得到所述初始梅尔频谱对应的分类向量;
将所述分类向量输入所述分类器中的三层卷积神经网络进行说话人分类,得到第二说话人类别;
对所述第二说话人类别与所述第一说话人类别进行比较,得到比较结果;
若所述比较结果为预设目标值,则确定所述第二说话人类别与所述第一说话人类别相同;
若所述比较结果不为预设目标值,则确定所述第二说话人类别与所述第一说话人类别不相同。
7.根据权利要求1-6中任一项所述的语音转换方法,其特征在于,所述若所述第二说话人类别与所述第一说话人类别相同,则对所述目标梅尔频谱进行语音转换,得到目标语音数据,包括:
若所述第二说话人类别与所述第一说话人类别相同,则将所述目标梅尔频谱输入预置的序列生成模型进行格式转换,得到所述目标梅尔频谱对应的目标格式文件;
对所述目标格式文件进行语音转换,得到目标语音数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110711815.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本纠错的方法、装置、电子设备及存储介质
- 下一篇:一种呼吸训练器