[发明专利]一种基于双通道卷积注意力网络的语音增强方法及系统在审

申请号：	202110999879.5	申请日：	2021-08-26
公开（公告）号：	CN113611323A	公开（公告）日：	2021-11-05
发明（设计）人：	雷斌	申请（专利权）人：	北京至芯开源科技有限责任公司
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L21/0224;G10L21/0232;G10L25/30;G10L25/45
代理公司：	北京盛凡智荣知识产权代理有限公司 11616	代理人：	陈月婷
地址：	101318 北京市顺义区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于双通道卷积注意力网络语音增强方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双通道卷积注意力网络的语音增强方法，其特征在于，所述语音增强方法包括以下步骤：

将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征，学习所述输入特征不同粒度的深层信息，同时在该通道内添加卷积注意力模块，完成深度信息输出特征图在通道以及空间两个维度的重构，得到第一输出结果；

将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征，学习所述输入特征的序列信息，并在该通道内添加空间注意力模块，完成序列信息输出特征图在空间维度的重构，得到第二输出结果；

将第一输出结果和第二输出结果进行特征融合，融合后的增强特征作为全连接层的输入，进行增强语音的对数幅度谱特征预测；

将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法完成合成增强语音并输出。

2.根据权利要求1所述的一种双通道卷积注意力网络的语音增强方法，其特征在于，所述带噪语音的对数幅度谱特征向量的提取方式包括：对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征向量。

3.根据权利要求2所述的一种双通道卷积注意力网络的语音增强方法，其特征在于，所述对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征的步骤具体包括：

对带噪语音降采样到8000Hz，然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理，帧与帧之间有50％的重叠，即帧移为16ms、采样点位128个，之后对每一帧结果进行256点的傅里叶变换，将时域信号转换到频域；

对得到的每一帧的频域信号依次进行取模、取对数操作，表示如下：

Y_t＝ln(|X(t,d)|)

其中，Y_t代表第t时间帧、第d个频带的带噪语音X(t,d)的对数幅度谱特征；

对带噪语音的对数幅度谱特征进行帧扩展，表示如下：

Y＝[Y_t-n,Y_t-n+1…Y_t-1,Y_t,Y_t+1…Y_t+n-1，Y_t+n]

其中，Y代表对数幅度谱特征进行帧扩展值，t-n，t-n+1，…，t+n代表时间帧(t，n＝1，2，…，N，且t≠n，)，Y∈R^(2n+1)×d，R代表特征图集合，2n+1代表输入网络的时间帧数，取值为15，d代表对应的特征维度，取值129；

对经过帧扩展的特征向量按照均值为0，方差为1进行归一化处理，表示如下：

其中，Y′代表帧扩展的特征向量，Y代表对数幅度谱特征进行帧扩展值，μ代表输入数据Y的均值，σ代表输入数据Y的方差。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京至芯开源科技有限责任公司，未经北京至芯开源科技有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110999879.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载