[发明专利]语音增强方法、装置、设备及存储介质在审
申请号: | 202110839257.6 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113450822A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 张之勇;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/0264 | 分类号: | G10L21/0264 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;陈海云 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 增强 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能,提供一种语音增强方法、装置、设备及存储介质。该方法能够对纯净音频进行扩充处理,得到音频样本,音频样本包括带噪音频,对带噪音频进行预处理,得到多个序列特征,基于时序处理网络分析每个所述序列特征,得到多个输出特征,根据多个序列特征及多个输出特征生成时频特征,从时频特征中提取频带信息,基于频带处理网络分析频带信息,得到频带特征,根据频带特征及时频特征生成预测音频,基于预测音频及纯净音频调整网络参数,得到音频增强模型,获取请求音频,基于音频增强模型对请求音频进行增强处理,得到目标音频。本发明能够提高目标音频的增强效果。此外,本发明还涉及区块链技术,所述目标音频可存储于区块链中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音增强方法、装置、设备及存储介质。
背景技术
语音增强包括从混响及带噪语音环境中提取出目标说话声源。在对时序较长的音频进行语音增强时,传统的音频增强方式在处理长时信息会出现梯度消失致使长时依赖的问题,致使无法有效的对较长的语音序列进行建模,同时,在其感受野小于序列长度时无法进行话语级别的序列建模,因此对实际语音序列的建模精度有一定的影响,从而影响语音增强效果。
发明内容
鉴于以上内容,有必要提供一种语音增强方法、装置、设备及存储介质,能够提高目标音频的语音增强效果。
一方面,本发明提出一种语音增强方法,所述语音增强方法包括:
获取纯净音频,并对所述纯净音频进行扩充处理,得到音频样本,所述音频样本包括带噪音频;
对所述带噪音频进行预处理,得到多个序列特征;
获取预设学习器,所述预设学习器包括时序处理网络及频带处理网络;
基于所述时序处理网络并行分析每个所述序列特征,得到多个输出特征;
根据所述多个序列特征及所述多个输出特征生成所述带噪音频的时频特征,并从所述时频特征中提取频带信息;
基于所述频带处理网络分析所述频带信息,得到频带特征;
根据所述频带特征及所述时频特征生成预测音频;
基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到音频增强模型;
获取请求音频,并基于所述音频增强模型对所述请求音频进行增强处理,得到目标音频。
根据本发明优选实施例,所述对所述纯净音频进行扩充处理,得到音频样本包括:
根据所述纯净音频在时频上的时频初始信息生成时频初始向量;
从录制库中获取多个录制音频,并对所述多个录制音频进行向量化处理,得到多个时频录制向量;
统计所述时频初始向量的向量维度,并根据所述向量维度对所述多个时频录制向向量进行处理,得到多个时频目标向量;
根据下列公式计算多个时频带噪向量:
其中,xi是指所述时频初始向量,xj是指每个所述时频目标向量,λ∈[0,1];
对所述多个时频带噪向量进行转换,得到多个所述带噪音频;
将所述纯净音频及多个所述带噪音频确定为所述音频样本。
根据本发明优选实施例,所述对所述带噪音频进行预处理,得到多个序列特征包括:
获取所述带噪音频的音频标识;
根据所述音频标识从所述多个时频带噪向量中提取带噪音频特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110839257.6/2.html,转载请声明来源钻瓜专利网。