[发明专利]一种语音增强方法、装置及存储介质有效
申请号: | 202110540097.5 | 申请日: | 2021-05-18 |
公开(公告)号: | CN113299300B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 王杰;田嘉怡;袁旻忞 | 申请(专利权)人: | 广州大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0208;G10L21/0224;G10L21/0232;G10L25/30 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 增强 方法 装置 存储 介质 | ||
1.一种语音增强方法,其特征在于,包括:
获取训练数据集;所述训练数据集包括纯净语音数据以及噪声语音数据;
将所述纯净语音数据输入判别网络进行训练,使得所述判别网络的输出结果表征真实结果,得到判别网络模型;
根据所述噪声语音数据对生成网络进行训练,得到生成网络模型;所述生成网络模型的输出结果输入至所述判别网络模型使得所述判别网络模型的输出结果表征真实结果,所述判别网络以及所述生成网络中的至少一个基于时域卷积网络进行训练;
将待处理语音输入所述生成网络模型,得到增强语音;
所述根据所述噪声语音数据对生成网络进行训练,得到生成网络模型,包括:
对噪声语音数据进行数据处理,得到噪声语音数据的幅度谱和相位谱;
将所述幅度谱输入所述生成网络提取语音特征;
根据所述相位谱和所述语音特征进行语音重构;
将语音重构结果输入至所述判别网络模型,并根据所述判别网络模型的输出结果对所述生成网络的网络参数进行调整,根据调整后的生成网络生成所述生成网络模型;
所述幅度谱包括帧序列,所述将所述幅度谱输入所述生成网络提取语音特征,包括:
通过第一二维因果卷积层集合对所述帧序列进行因果卷积处理,得到不同尺寸的第一因果卷积处理结果;所述第一二维因果卷积层集合包括若干个第一二维因果卷积层,每一所述第一二维因果卷积层输入的帧数和输出的帧数相同;
对所述第一因果卷积处理结果进行第一处理,得到一维信号;所述第一处理包括批归一化和非线性处理;
通过时域卷积模块对所述一维信号进行处理,得到所述语音特征。
2.根据权利要求1所述语音增强方法,其特征在于:所述时域卷积模块包括膨胀块,所述通过时域卷积模块对所述一维信号进行处理,根据处理结果得到所述语音特征,包括:
通过膨胀块对所述一维信号进行膨胀卷积处理,得到所述语音特征;所述膨胀卷积处理基于膨胀因子定义,所述膨胀因子用于调整所述时域卷积网络的接收范围。
3.根据权利要求2所述语音增强方法,其特征在于:所述膨胀块包括第一残差块和第二残差块,所述通过膨胀块对所述一维信号进行膨胀卷积处理,包括:
通过第一残差块对所述一维信号进行第一残差处理,并通过第二残差块对第一残差处理结果进行第二残差处理,其中所述第一残差块和所述第二残差块的所述膨胀因子按照预设规则递增;所述通过第一残差块对所述一维信号进行第一残差处理,包括:
通过第一残差块对所述一维信号进行第一卷积处理;
对第一卷积处理结果进行第一批量归一化;
对第一批量归一化结果进行非线性处理;
对非线性处理结果进行第二批量归一化;
对第二批量归一化结果进行第二卷积处理。
4.根据权利要求1所述语音增强方法,其特征在于:根据所述相位谱和所述语音特征进行语音重构,包括:
根据所述相位谱与所述语音特征,通过第二二维因果卷积层集合进行因果转置卷积处理实现语音重构;所述第二二维因果卷积层集合包括若干个第二二维因果卷积层,每一所述第二二维因果卷积层与所述第一二维因果卷积层集合中对称的第一二维因果卷积层的输出连接。
5.根据权利要求1-4任一项所述语音增强方法,其特征在于:所述根据所述噪声语音数据对生成网络进行训练,包括:
根据所述噪声语音数据对生成网络进行训练,并在训练过程中根据预设丢包率对生成网络进行网络正则化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110540097.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可自动安装保护结构的打包机
- 下一篇:指环