[发明专利]一种基于跨模态异质图神经网络的视频问答方法在审
申请号: | 202210680394.4 | 申请日: | 2022-06-15 |
公开(公告)号: | CN114969298A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 刘赟;田鹏;李浪;沈仕巡;周克;冯华仲 | 申请(专利权)人: | 茅台学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/732;G06F16/75;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 胡绪东 |
地址: | 56450*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨模态异质图 神经网络 视频 问答 方法 | ||
本发明公开了一种基于跨模态异质图神经网络的视频问答方法,该方法为:将视频问答任务中的信息分为视频帧、视频剪辑和问题语句,分别将它们提取为对应特征,利用多头多跳注意力对三种类型的特征进行跨模态交互;基于跨模态特征构建多流时空语义图,图中的每个节点对应于一个视频帧、剪辑或问题单词;在异质图上利用图神经网络执行模态内和模态间的同步推理,生成局部推理向量;基于多模态双线性池化模型融合视频和问题信息,实现整体的特征关联并生成全局向量;将局部和全局向量集成为一个多模态的联合特征向量,用于答案推导。本发明利用细粒度的关联信息,并根据问题类型利用分类或回归技术实现答案预测,显著提高了视频问答的准确性。
技术领域
本发明涉及一种基于跨模态异质图神经网络的视频问答方法,属于人机交互和自助服务技术领域。
背景技术
由于信息技术的迅速发展和移动智能终端的广泛普及,大量的社交网络平台井喷式地涌现,每天都有庞大的用户在不同的社交平台上分享图片、视频、文字等信息以展示他们的个人经历或生活态度等。这其中,视频成了一种重要的信息载体,而处理海量视频数据工作量极大,远超人脑信息处理的能力。因此,利用人工智能技术自动分析并理解视频信息成为了必然的趋势。视频问答是目前视频内容理解较好的切入点,它需要根据问题的语义对视频进行针对性的理解,并根据视频内容推导出问题的答案。由于视频问答涉及视觉和自然语言两种模态的信息处理,且视频具有空间和时序两方面的复杂特征,使得视频问答技术的发展面临重大挑战。然而,突破视频问答技术不仅能促进视频内容理解的发展,还能广泛应用于人机交互、自动客户服务、早期教育等场景,对相关领域的发展具有重要贡献。
当前占主导位置的视频问答方法主要致力于探索视频内容与问题语义之间的潜在关联。这类方法利用各种不同的视觉和语言注意力机制建模跨模态关系。其他一些方法将视频帧/剪辑和问题句内部的依赖关系融入到模型中,强化了多模态的表示学习能力。尽管现有方法在挖掘答案相关的多模态特征方面做出了巨大的努力,但它们无法同时进行模态间和模态内相关性的同步推理,难以有效捕捉跨模态数据间细粒度的关联信息,直接影响了跨模态交互的有效性。因此,视频问答方法中跨模态的特征关联与答案推理方式亟待改善,将模态内和模态间的关系整合到一个异构空间并进行同步推理更符合数据的逻辑,这也是目前亟需解决的问题。
发明内容
本发明要解决的技术问题是:提供一种基于跨模态异质图神经网络的视频问答方法,以多头多跳注意力的方式探索不同模态间的细粒度交互,利用交互后的多模态数据构建多流时空语义图,并通过图神经网络在异质图上执行跨模态的关系推理,提高视频问答的准确率,以解决现有技术中存在的技术问题。
本发明采取的技术方案为:一种基于跨模态异质图神经网络的视频问答方法,它包括跨模态特征提取及交互、多流时空语义图推理、视频和问题信息集成、特征融合及答案预测等四个部分,跨模态特征提取及交互部分将视频帧、剪辑和问题单词分别表示为视频的外观、运动及问题的语义特征,利用多头多跳注意力捕捉跨模态特征间的细粒度交互,多流时空语义图推理部分是在交互后的跨模态特征上构建异质图,利用图神经网络执行跨模态的关系推理,生成局部推理向量,视频和问题信息集成部分利用双线程池化模型从整体上融合视频和问题特征,生成全局向量,特征融合及答案预测部分将全局和局部向量进行特征融合并利用分类和回归技术进行问题答案的预测。
一种基于跨模态异质图神经网络的视频问答方法,其具体步骤如下:
步骤一:对视频帧序列进行均匀采样,并将视频均匀地切分成一系列的剪辑。利用残差神经网络和3D卷积神经网络分别将视频帧和剪辑提取为视频的外观和运动特征。对问题语句,利用训练好的词向量将其表示为问题语义特征。通过多头多跳注意力建模三种类型的特征间细粒度的特征交互;
步骤二:利用步骤一中交互后的跨模态特征构建多流时空语义图,图节点为视频帧、剪辑或问题单词,图边表示节点间的关系。为每个节点拼接该节点在原视频或问题中的位置嵌入。采用图卷积神经网络对异质图进行模态内和模态间关系的同步推理,生成局部推理向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于茅台学院,未经茅台学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210680394.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑工程咨询服务平台
- 下一篇:一种深坑挖斗洗砂机及其使用方法