[发明专利]一种基于双通道卷积注意力网络的语音增强方法及系统在审
申请号: | 202110999879.5 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113611323A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 雷斌 | 申请(专利权)人: | 北京至芯开源科技有限责任公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0224;G10L21/0232;G10L25/30;G10L25/45 |
代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 陈月婷 |
地址: | 101318 北京市顺义区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双通道 卷积 注意力 网络 语音 增强 方法 系统 | ||
本发明公开了一种基于双通道卷积注意力网络的语音增强方法,包括以下步骤:首先对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征作为模型的输入特征;然后将输入特征分别送入卷积神经网络通道和长短时记忆网络通道中进行深层特征提取,并在两个通道中分别添加卷积注意力模块和空间注意力模块,用于对两个通道中产生的特征图自适应调整;进一步完成增强语音对数幅度谱特征的预测;最后将预测结果和带噪语音相位结合得到增强语音的频域表示,并通过逆傅里叶变换转换回时域,再利用重叠相加的方法完成增强语音的整体合成。本发明能够有效提高了增强语音的质量和可懂度。
技术领域
本发明涉及语音信号处理领域,特别是涉及一种基于双通道卷积注意力网 络的语音增强方法及系统。
背景技术
随着经济水平以及科技能力的不断进步,越来越多的智能设备在各个领域 逐步应用起来,新型智能设备的使用正不断改善人们的生活质量。现如今人机 交互的方式正逐步摆脱传统的键盘式方法,而开始使用语音交互方式,并逐步 应用在各种平台,如:微软的语音助手小娜;小米的语音助手小爱同学;苹果 的语音助手Siri以及讯飞的语音输入法等。这些语音助手的出现极大方便了人 们的生产生活,然而这些交互方式都存在一定的问题,如在环境嘈杂时,设备 的唤醒率低的现象,严重情况下也会导致语音信号的失真,如何降低由于周围 环境带来的不良影响是当前的首要的任务。因此,对包含环境噪声的语音信号 进行增强是对现实生活都有益的一项工作。
语音增强的主要任务是通过去除带噪语音中的噪声来提升语音的质量和可 懂度的技术。目前语音增强的方法主要有两种,基于统计学的传统语音增强方 法和基于深度学习的语音增强方法。其中基于统计学的传统方法是通过一些假 设来进行语音增强任务,在平稳噪声和高信噪比的前提下,增强语音取得了比 较好的效果。但是实际应用中,这些假设很难得到满足,尤其是在低信噪比和 非平稳噪声的环境中,增强效果往往不尽人意。基于深度学习技术的出现是为 解决传统算法在实际应用中性能较差的问题,研究表明,使用全连接层堆叠的 深度神经网络(Deep neural network,DNN)模型与传统算法相比,增强后的语 音性能得到大幅度提升。依靠DNN强大的学习能力和非线性映射能力,越来越 多的深度学习方法被使用,并且也取得了很好的效果,尤其是在非平稳噪声以 及低信噪比的环境中。
使用传统方法进行语音增强的时候,都是对语音信号进行不合理的假设, 但是这些假设并不满足现实条件。而如今的深度学习方法中大多是通过构建单 独使用CNN或者LSTM等单通道的网络模型进行语音增强,这些方法在不可见 噪声中的性能受到一定的约束,同时随着网络层数的增加,其性能也将受到影 响,无法充分提取语音信号的深层特征。另外常见的卷积操作对训练中产生的 特征图处理方式是一致的,并没有在通道以及空间维度对有益的特征信息进行 区分,无法分辨带噪语音中关键信息,从而导致增强结果中受噪声等非关键信 息的影响很大。
发明内容
针对上述问题,本发明提供了一种可提高增强语音的质量的基于双通道卷 积注意力网络的语音增强方法及系统。
为了解决上述技术问题,本发明第一方面提供的技术方案为:一种基于双 通道卷积注意力网络的语音增强方法,所述语音增强方法包括以下步骤:
将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输 入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度 信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述 输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出 特征图在空间维度的重构,得到第二输出结果;
将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全 连接层的输入,进行增强语音的对数幅度谱特征预测;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京至芯开源科技有限责任公司,未经北京至芯开源科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110999879.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种废轮胎处理回收方法
- 下一篇:一种显示屏组件和制造方法