[发明专利]一种融合双通道注意力机制的多模态视听分离方法及系统在审
申请号: | 202211732024.7 | 申请日: | 2022-12-30 |
公开(公告)号: | CN116110423A | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 张钰涛;吴开兴;赵铤钊;赵梦凡 | 申请(专利权)人: | 河北工程大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;H04N21/233;H04N21/234;H04N21/236;H04N21/439;H04N21/44;G06V20/40;G06V10/80;G06V10/82;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 杨思祥 |
地址: | 056000 河北省邯*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 双通道 注意力 机制 多模态 视听 分离 方法 系统 | ||
本发明提出了一种融合双通道注意力机制的多模态视听分离方法及系统,涉及音频处理技术领域。首先,获取待分离有声视频并进行预处理,得到视频帧和音频帧数据。然后,通过预设的基于卷积块注意力机制的残差网络对视频帧数据进行特征提取,得到视觉信息特征。并且,通过预设的基于注意力门控机制的AG‑U‑Net结构网络对音频帧数据进行特征提取,得到音频信息特征。最后,通过融合预测模块对视觉信息特征和音频信息特征进行特征融合,并输出对应的预测频谱图和掩码。本发明利用融合了双通道注意力机制的多模态视听分离模型AVDA,通过视觉特征和音频特征的动态融合进行音源分离,以提高声源分离的准确性。
技术领域
本发明涉及音频处理技术领域,具体而言,涉及一种融合双通道注意力机制的多模态视听分离方法及系统。
背景技术
音源分离是信号处理领域中一直备受关注的问题,其有着广泛的应用场景。对于语音识别而言,通过音频音源分离来将人声从复杂的背景噪声中分离,能够更加准确地进行人声内容的识别与提取,提高语音转录等任务的效率;对于音频强化而言,通过音频音源分离智能化地将目标音频信号从混合信号中分离,能够更好地辅助人们完成音频消噪、监听等工作;此外,在音乐编辑、创作工作中,音频音源分离能够在没有分轨音频数据的情况下,单独提取出某一轨乐器的音频数据,从而能够方便音乐制作人员对音频进行重混音或者乐谱转录等工作。
音源分离的目的是分离从相应对象发出的特定声音。但是目前的音源分离方法和模型,例如稀疏编码、独立成分分析、非负矩阵分解、深度神经网络等方法,都属于基于单模态信息的音源分离方法,即只关注音频信息却忽略了视觉信息,从而造成了特征信息的浪费,导致其在现实场景中的音源分离任务上效果并不理想。
发明内容
本发明的目的在于提供一种融合双通道注意力机制的多模态视听分离方法及系统,通过结合视觉信息和听觉信息,进行基于视觉信息的声源分离,以提高声源分离的准确性。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种融合双通道注意力机制的多模态视听分离方法,其包括:
获取待分离有声视频并进行预处理,得到视频帧和音频帧数据;
通过预设的基于卷积块注意力机制的残差网络对上述视频帧数据进行特征提取,得到视觉信息特征;
通过预设的基于注意力门控机制的AG-U-Net结构网络对上述音频帧数据进行特征提取,得到音频信息特征;
通过融合预测模块对上述视觉信息特征和音频信息特征进行特征融合,并输出对应的预测频谱图和掩码。
基于第一方面,在本发明的一些实施例中,上述通过预设的基于卷积块注意力机制的残差网络对上述视频帧数据进行特征提取,得到视觉信息特征的步骤包括:
将上述视频帧数据输入残差网络中进行初级特征提取,得到特征图;
利用通道注意力模块对特征图进行压缩,并进行通道注意力卷积操作,得到第一输出特征图;
利用空间注意力模块对第一输出特征图进行空间注意力特征提取,得到第二输出特征图,上述第二输出特征图包含上述视觉信息特征。
基于第一方面,在本发明的一些实施例中,上述利用通道注意力模块对特征图进行压缩,并进行通道注意力卷积操作,得到第一输出特征图的步骤包括:
利用并行的最大池化层和平均池化层计算得到上述特征图的通道注意力特征;
将通道注意力特征送入共享的多层感知机网络进行通道压缩和扩张;
利用ReLU激活函数对多层感知机网络的输出进行激活,得到最大池化特征和平均池化特征后,将两种特征进行合并,并利用sigmoid激活函数得到一维通道注意力特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工程大学,未经河北工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211732024.7/2.html,转载请声明来源钻瓜专利网。