[发明专利]一种跨媒体层次化深度视频问答推理框架有效

专利信息
申请号: 202011499931.2 申请日: 2020-12-17
公开(公告)号: CN112527993B 公开(公告)日: 2022-08-05
发明(设计)人: 余婷;来炳;钱璐 申请(专利权)人: 浙江财经大学东方学院
主分类号: G06F16/332 分类号: G06F16/332;G06F16/783;G06F40/205;G06F40/30;G06N3/04;G06N3/08;G06N5/04
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 314408 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 媒体 层次 深度 视频 问答 推理 框架
【说明书】:

发明公开了一种跨媒体层次化深度视频问答推理框架。本发明步骤:1、利用记忆组件保存视频的全局语义信息,通过多轮记忆更新迭代得到浅层推理机。2、基于浅层推理机,构建深层推理机,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽,形成空间记忆和时序记忆。3、构建多模态记忆协同推理框架,利用来自对象和动作的多模态证据执行更为精细的推理。4、进行多模态记忆动态融合,利用浅层推理机的输出作为监视哨,引导下层不同模态记忆内容的权重分配,通过框架中的记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。本发明推理框架能够在视频问答数据集上取得显著的效果。

技术领域

本发明涉及一种针对视频问答的深度神经网络,尤其涉及一种基于跨媒体统一表达的层次化深度推理框架。

背景技术

跨媒体技术旨在打通不同媒体(如视频媒体、文本媒体)之间的“语义鸿沟”,形成统一的跨媒体语义表达。但由于多媒体数据本身语义的复杂性,在深度学习出现之前,该问题一直没有得到很好地解决。近年来,深度学习在各个研究领域上都取得了惊人的成绩,它借助复杂的神经网络模型对需要解决的任务进行端到端建模,学习跨媒体数据的深度统一表达。由于深度模型强大的语义表达能力,深度跨媒体统一表达模型成为目前的主流方法。

在深度跨媒体统一表达的理论基础上,衍生出一些目前热门的分支方向,如跨媒体检索、视觉描述以及视觉问答等。跨媒体检索旨在给定一种媒体数据从海量数据库中找到最匹配的另一种媒体的相关数据;视觉描述的目标是给一张图像使用一句或几句自然语言对其内容进行有效概述;视觉问答的目标在于使用自然语言描述的问题和一个视觉数据对象作为输入,算法在充分理解自然语言描述和视觉内容后,进行深度推理,最终输出一个自然语言描述的答案。这些任务中,视觉问答相对来说更有挑战性,它涉及视觉内容和自然语言的细粒度理解,同时还需要进行深度知识推理。因此,视觉问答成为近年来学界的研究热点。

视频数据作为一种主流的视觉数据对象,大规模存在于各种社交网站中,它的数据量几乎超过其他媒体数据的总和。相比于图像,视频数据更为复杂。视频不是图像序列数量上简单的堆叠,它包含有视觉、文本、语音等多个模态的数据信息。视频中的视觉对象会随着时间的变化呈现不同视角的视觉特征,且不同时刻的空间视觉信息相互关联。另外,基于视频数据的视觉问答涉及更为复杂的问题。用户可以根据视频内容提出高自由度的多样性问题。视频问答任务下的问题除了颜色、数量、位置等静态空间信息相关的问题外,通常还包括动作类别、动作时序关系推理等复杂的问题。另外,给定一个视频数据对象,模型对于不同的问题给出正确的回答所依赖的视觉信息量是不同的。有的问题只依赖一帧信息就能给出有效回答,有的则需要理解完整视频的语义才能正确预测出答案。

综上所述,视频问答的难点在于如何在正确有效地理解视频内容以及充分准确地理解问题意图的基础上,构建高效的跨媒体问答推理框架,从而提升答案预测的准确性。

发明内容

本发明提供了一种针对复杂长时视频问答的深度分层推理框架,该架构主要包含:1、构建浅层推理机:执行无关信息过滤功能,从复杂长时视频所有可能的长序列信息中识别出与问题描述相关的重要视觉内容,过滤掉无关的视觉信息,避免深层记忆网络信息及噪声的超载;2、构建深层推理机:在浅层推理机的引导下,利用来自视觉和自然语言更深层的语义证据进行更精细的推理,学习更为细粒度的注意力,以提高跨模态任务推理的质量。在视频问答方面,利用本发明的深度推理框架改善推理质量,取得了比传统视觉问答模型更好的效果。3、记忆动态融合模块:用于动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。

本发明解决其技术问题所采用的技术方案如下:

步骤(1)、利用记忆组件保存视频的全局语义信息,在问题描述的全局视觉特征的引导下,通过多轮记忆更新迭代得到浅层推理机,用于推理与问题描述的全局语义特征最相关的视觉信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江财经大学东方学院,未经浙江财经大学东方学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011499931.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top