[发明专利]一种基于时间建模生成对抗网络的语音增强系统有效
申请号: | 202210387623.3 | 申请日: | 2022-04-14 |
公开(公告)号: | CN114495958B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 董安明;张德辉;禹继国;韩玉冰;李素芳;张丽;邱静;刘洋;张滕;刘宗银 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L25/30;G06N3/04 |
代理公司: | 济南智本知识产权代理事务所(普通合伙) 37301 | 代理人: | 张平平 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时间 建模 生成 对抗 网络 语音 增强 系统 | ||
1.一种基于时间建模生成对抗网络的语音增强系统,其特征在于,包括:
数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;
信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号;
所述生成对抗网络包括生成器,所述生成器包括编码器和解码器;
所述编码器包括第一卷积层和第一时间建模模块,所述第一卷积层用于提取语音信号局部特征,所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征;
所述解码器包括反卷积层和第二时间建模模块,反卷积层用于根据编码器提取的语音特征恢复语音信号,第二时间建模模块用于在恢复语音信号过程中进行时间建模。
2.根据权利要求1所述的系统,其特征在于,所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层;所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征;所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。
3.根据权利要求2所述的系统,其特征在于,所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层;
所述第二卷积层用于对所述时间相关性特征进行卷积操作,得到查询矩阵;
所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量,得到键矩阵和值矩阵;
所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。
4.根据权利要求1所述的系统,其特征在于,所述第一卷积层为一维的,所述第一时间建模模块嵌入在相邻两个第一卷积层中间,且与所述第一卷积层相互耦合;
所述反卷积层为一维的,且层数与所述第一卷积层相同,所述第二时间建模模块嵌入在相邻两个反卷积层中间;
所述第一卷积层与所述反卷积层之间采用残差链接连接。
5.根据权利要求1所述的系统,其特征在于,所述生成对抗网络还包括鉴别器,所述鉴别器包括:第二卷积层、第三时间建模模块、全连接层和第二softmax层,所述第二卷积层用于提取局部特征,第三时间建模模块用于提取特征的时间相关性和全局相关性,全连接层用于利用线性变换降低特征的数量,第二softmax层将特征转换为判断真假的概率,1为真,0为假。
6.根据权利要求5所述的系统,其特征在于,还包括:
训练集获取单元,用于获取带噪语音信号的训练集,并进行降采样;
网络构建获取单元,用于构建基于时间建模的生成对抗网络;
网络训练单元,用于利用训练集对构建的生成对抗网络进行训练,得到增强的语音信号;
语音鉴定单元,用于将纯净语音信号和增强的语音信号分别联合带噪语音,通过鉴别器对联合后的语音信号判定真假;
损失计算单元,用于通过反向传播对生成器和鉴别器同时进行训练,计算损失函数,通过损失函数更新所述生成对抗网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210387623.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高强度三层共挤锂离子电池隔膜及其制备方法
- 下一篇:工业质检的方法和装置