[发明专利]一种融合双通道注意力机制的多模态视听分离方法及系统在审
申请号: | 202211732024.7 | 申请日: | 2022-12-30 |
公开(公告)号: | CN116110423A | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 张钰涛;吴开兴;赵铤钊;赵梦凡 | 申请(专利权)人: | 河北工程大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;H04N21/233;H04N21/234;H04N21/236;H04N21/439;H04N21/44;G06V20/40;G06V10/80;G06V10/82;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 杨思祥 |
地址: | 056000 河北省邯*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种融合双通道注意力机制的多模态视听分离方法及系统,涉及音频处理技术领域。首先,获取待分离有声视频并进行预处理,得到视频帧和音频帧数据。然后,通过预设的基于卷积块注意力机制的残差网络对视频帧数据进行特征提取,得到视觉信息特征。并且,通过预设的基于注意力门控机制的AG‑U‑Net结构网络对音频帧数据进行特征提取,得到音频信息特征。最后,通过融合预测模块对视觉信息特征和音频信息特征进行特征融合,并输出对应的预测频谱图和掩码。本发明利用融合了双通道注意力机制的多模态视听分离模型AVDA,通过视觉特征和音频特征的动态融合进行音源分离,以提高声源分离的准确性。 | ||
搜索关键词: | 一种 融合 双通道 注意力 机制 多模态 视听 分离 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工程大学,未经河北工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202211732024.7/,转载请声明来源钻瓜专利网。