[发明专利]一种基于双通道卷积注意力网络的语音增强方法及系统在审
申请号: | 202110999879.5 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113611323A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 雷斌 | 申请(专利权)人: | 北京至芯开源科技有限责任公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0224;G10L21/0232;G10L25/30;G10L25/45 |
代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 陈月婷 |
地址: | 101318 北京市顺义区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双通道 卷积 注意力 网络 语音 增强 方法 系统 | ||
1.一种基于双通道卷积注意力网络的语音增强方法,其特征在于,所述语音增强方法包括以下步骤:
将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出特征图在空间维度的重构,得到第二输出结果;
将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;
将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成合成增强语音并输出。
2.根据权利要求1所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述带噪语音的对数幅度谱特征向量的提取方式包括:对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征向量。
3.根据权利要求2所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征的步骤具体包括:
对带噪语音降采样到8000Hz,然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理,帧与帧之间有50%的重叠,即帧移为16ms、采样点位128个,之后对每一帧结果进行256点的傅里叶变换,将时域信号转换到频域;
对得到的每一帧的频域信号依次进行取模、取对数操作,表示如下:
Yt=ln(|X(t,d)|)
其中,Yt代表第t时间帧、第d个频带的带噪语音X(t,d)的对数幅度谱特征;
对带噪语音的对数幅度谱特征进行帧扩展,表示如下:
Y=[Yt-n,Yt-n+1…Yt-1,Yt,Yt+1…Yt+n-1,Yt+n]
其中,Y代表对数幅度谱特征进行帧扩展值,t-n,t-n+1,…,t+n代表时间帧(t,n=1,2,…,N,且t≠n,),Y∈R(2n+1)×d,R代表特征图集合,2n+1代表输入网络的时间帧数,取值为15,d代表对应的特征维度,取值129;
对经过帧扩展的特征向量按照均值为0,方差为1进行归一化处理,表示如下:
其中,Y′代表帧扩展的特征向量,Y代表对数幅度谱特征进行帧扩展值,μ代表输入数据Y的均值,σ代表输入数据Y的方差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京至芯开源科技有限责任公司,未经北京至芯开源科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110999879.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种废轮胎处理回收方法
- 下一篇:一种显示屏组件和制造方法