[发明专利]面向麦克风阵列的通道注意力加权的语音增强方法在审
申请号: | 202011028613.8 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112151059A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 唐闺臣;孙世若;梁瑞宇;王青云;谢跃;包永强;邹采荣 | 申请(专利权)人: | 南京工程学院 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0224;G10L25/30 |
代理公司: | 南京睿之博知识产权代理有限公司 32296 | 代理人: | 刘菊兰 |
地址: | 211167 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 麦克风 阵列 通道 注意力 加权 语音 增强 方法 | ||
本发明公开了一种面向麦克风阵列的通道注意力加权的语音增强方法,方法包括:从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;构建多通道语音增强模型;将麦克风阵每路带噪语音的短时傅里叶变换频谱作为多通道语音增强模型的输入特征,对多通道语音增强模型进行预训练;将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型,并用该多通道语音增强模型实现麦克风阵列语音增强。本发明采用U‑NET网络对语音频谱特征进行处理,参数量少,计算复杂度较低,并在此基础上对通道维度采用注意力机制加权操作,对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,提高语音增强的性能。
技术领域
本发明涉及多通道语音增强技术领域,具体涉及一种面向麦克风阵列的通道注意力加权的语音增强方法。
背景技术
语音是现代通信的重要载体,语音增强的目的是利用信号处理的技术改善受到噪声污染的语音可懂度与质量,其在语音信号处理中有着重要的应用,因而近些年,语音增强技术也受到了广泛的关注。现实应用中录制的语音信号总是会受到各种干扰与污染,如:各种类型的噪声、混响、回声等。这些干扰会显著降低语音的可懂度,从而影响人类的听感以及语音识别系统的准确性。因此,有效的语音增强技术对于语音信号处理的发展是至关重要的。
单通道语音增强算法实现较为简单,但也存在一定缺点,例如,基于谱减法的语音增强方法会带来音乐噪声,且在语音质量和可懂度之间的矛盾在目前还没有得到较好的解决。而麦克风阵列技术的应用不仅可以得到语音的时域和频域信息,还可以得到语音信号的空域信息,合理利用它们可以在提高输出语音信号的信噪比并减少语音信号的失真。
传统的多通道语音增强方法包括波束形成,其中包含固定波束形成和自适应波束形成。固定波束形成算法首先计算对各个麦克风上进行时延补偿以对齐麦克风信号,然后将各个麦克风接收到的信号进行加权求和。由于各通道的权值是为固定的常数,其对环境的适应性不强。相比于固定波束形成,自适应波束形成能够根据环境的变化来自适应的调整各个通道语音的权值。Frost在1972首次提出基于线性约束最小方差(LinearlyConstrained Minimum Variance,LCMV)的自适应波束形成算法。LCMV可以直接在噪声语音或者干扰语音方向直接陷零以消除这些与期望信号无关的信号。
近年来,随着深度学习的发展,人们逐渐将这一技术应用到语音增强当中。通过神经网络的增强语音通常能够具有较好的语音清晰度和可懂度。基于深度学习的多通道语音增强技术已经取得了一些成果,但仍有很多问题需要解决。
在公开号为CN111524519A的发明专利中公开了采用高级特征融合的端到端多通道语音识别方法,采用传统的注意力机制,在编码器与解码器之间对特征进行注意力加权;编码器与解码器采用双向长短时记忆网络,而本发明对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,本发明基于卷积神经网络的U-NET结构,参数量更少,计算复杂度较低,并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠,有效地融合浅层与深层的信息。在注意力机制当中,本发明采用多头注意力机制,在时间维度上对特征进行划分处理,而参考发明本文在计算注意力分布时采用的是键值对模式,而参考发明采用普通模式;在计算得分函数时,本发明采用的是缩放点积模型,而参考发明采用加性模型。
发明内容
发明目的:针对现有技术中多麦克风直接采用波束形成造成语音增强质量较低的缺陷,本发明公开了一种面向麦克风阵列的通道注意力加权的语音增强方法,采用U-NET网络对语音频谱特征进行处理,参数量少,计算复杂度较低,并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠,有效地融合浅层与深层的信息,并在此基础上对通道维度采用注意力机制加权操作,对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,提高语音增强的性能。
技术方案:为实现上述技术目的,本发明采用以下技术方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工程学院,未经南京工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011028613.8/2.html,转载请声明来源钻瓜专利网。