[发明专利]一种基于时频域联合损失函数的语音增强方法有效
申请号: | 202110155444.2 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112927709B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 高戈;王霄;陈怡;杨玉红;曾邦;尹文兵 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L21/0232 | 分类号: | G10L21/0232;G10L21/0224;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时频域 联合 损失 函数 语音 增强 方法 | ||
1.一种基于时频域联合损失函数的语音增强方法,其特征在于,包括以下步骤:
步骤1,将开源数据集中干净语音数据集与噪声数据集合成带噪语音数据集,将干净语音数据集中干净语音通过短时傅里叶变换的方法,进行分帧、重叠,转换为每条干净语音的频域幅度谱,构建干净语音频域幅度谱数据集,将干净语音数据集中干净语音进行采样、分帧并添加汉明窗转换为干净语音的波形数据,构成干净语音时域波形数据集,对于带噪语音数据集中带噪语音,通过短时傅里叶变换的方法进行分帧、重叠,转换为每条带噪语音的频域幅度谱与每条带噪语音的频域相位谱,构成带噪语音频域幅度谱数据集、带噪语音频域相位谱数据集,通过干净语音的频域幅度谱数据集、干净语音的时域波形数据集、带噪语音的频域幅度谱数据集、带噪语音的频域相位谱数据集,构建网络训练集数据;
步骤2,构建CNN网络模型,将网络训练集数据中的带噪语音的频域幅度谱即作为模型输入数据集,将干净语音的频域幅度谱即作为训练目标集,网络每次获取一条带噪语音的频域幅度谱,将其对应的干净语音的频域幅度谱作为标签,CNN网络模型根据带噪语音的频域幅度谱预测干净语音的频域幅度谱得到频域幅度谱估计值;将频域幅度谱估计值与带噪语音的频域相位谱结合,进一步通过逆短时傅里叶变换方法进行波形重构,获得增强后的语音;将增强后的语音通过采样、分帧重叠以及添加汉明窗,获得估计语音时域上的波形数据即;
通过干净语音的频域幅度谱与频域幅度谱估计值计算频域损失;通过干净语音的时域波形数据与估计语音时域上的波形数据计算时域损失;根据频域损失、时域损失构建时频域联合损失;
步骤3,根据时频域联合损失,使用Adam作为优化器更新卷积层的权值矩阵,进行下一次迭代,直到训练结束,得到优化后网络权重参数,以构建优化后CNN网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110155444.2/1.html,转载请声明来源钻瓜专利网。