[发明专利]一种融合双通道注意力机制的多模态视听分离方法及系统在审
申请号: | 202211732024.7 | 申请日: | 2022-12-30 |
公开(公告)号: | CN116110423A | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 张钰涛;吴开兴;赵铤钊;赵梦凡 | 申请(专利权)人: | 河北工程大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;H04N21/233;H04N21/234;H04N21/236;H04N21/439;H04N21/44;G06V20/40;G06V10/80;G06V10/82;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 杨思祥 |
地址: | 056000 河北省邯*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 双通道 注意力 机制 多模态 视听 分离 方法 系统 | ||
1.一种融合双通道注意力机制的多模态视听分离方法,其特征在于,包括:
获取待分离有声视频并进行预处理,得到视频帧和音频帧数据;
通过预设的基于卷积块注意力机制的残差网络对所述视频帧数据进行特征提取,得到视觉信息特征;
通过预设的基于注意力门控机制的AG-U-Net结构网络对所述音频帧数据进行特征提取,得到音频信息特征;
通过融合预测模块对所述视觉信息特征和音频信息特征进行特征融合,并输出对应的预测频谱图和掩码。
2.如权利要求1所述的一种融合双通道注意力机制的多模态视听分离方法,其特征在于,所述通过预设的基于卷积块注意力机制的残差网络对所述视频帧数据进行特征提取,得到视觉信息特征的步骤包括:
将所述视频帧数据输入残差网络中进行初级特征提取,得到特征图;
利用通道注意力模块对特征图进行压缩,并进行通道注意力卷积操作,得到第一输出特征图;
利用空间注意力模块对第一输出特征图进行空间注意力特征提取,得到第二输出特征图,所述第二输出特征图包含所述视觉信息特征。
3.如权利要求2所述的一种融合双通道注意力机制的多模态视听分离方法,其特征在于,所述利用通道注意力模块对特征图进行压缩,并进行通道注意力卷积操作,得到第一输出特征图的步骤包括:
利用并行的最大池化层和平均池化层计算得到所述特征图的通道注意力特征;
将通道注意力特征送入共享的多层感知机网络进行通道压缩和扩张;
利用ReLU激活函数对多层感知机网络的输出进行激活,得到最大池化特征和平均池化特征后,将两种特征进行合并,并利用sigmoid激活函数得到一维通道注意力特征图;
将一维通道注意力特征图与原图相乘,得到所述第一输出特征图。
4.如权利要求2所述的一种融合双通道注意力机制的多模态视听分离方法,其特征在于,所述利用空间注意力模块对第一输出特征图进行空间注意力特征提取,得到第二输出特征图的步骤包括:
对第一输出特征图进行最大池化和平均池化操作,得到两个大小相同的二维特征图;
将两个二维特征图进行拼接,并利用卷积层进行卷积运算,得到二维空间注意力特征图;
将二维空间注意力特征图与原图相乘,得到所述第二输出特征图。
5.如权利要求1所述的一种融合双通道注意力机制的多模态视听分离方法,其特征在于,所述通过预设的基于注意力门控机制的AG-U-Net结构网络对所述音频帧数据进行特征提取,得到音频信息特征的步骤包括:
利用U-Net结构网络的编码器对音频帧数据进行下采样,得到多个浅层有效特征层;
利用U-Net结构网络的解码器对多个所述浅层有效特征层进行上采样放大,得到多个深层有效特征层;
利用跳跃连接将浅层有效特征层与对应的深层有效特征层通过AG注意力机制模块进行拼接,得到音频信息特征。
6.如权利要求5所述的一种融合双通道注意力机制的多模态视听分离方法,其特征在于,所述通过AG注意力机制模块进行拼接的函数表达式为:
ai=fat(xi,G;βat)
其中,ai表示第i层的注意力系数,fat表示通过一组参数βat来定义xi和G的运算,xi表示编码器的输出,G表示从解码器的前一层获取的门控信号特征,G用于调整对应的编码器的输出xi的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工程大学,未经河北工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211732024.7/1.html,转载请声明来源钻瓜专利网。