[发明专利]利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法在审
申请号: | 201910965525.1 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110704601A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 赵洲;张品涵;金韦克;陈默沙 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/78;G06N3/04;G06K9/00 |
代理公司: | 33200 杭州求是专利事务所有限公司 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 注意力 外部 向量 嵌入 知识库 时空 答案 附加信息 检索视频 时间维度 视频表示 视频对象 输入单词 语义特征 知识引导 注释文本 常识性 对象集 嵌入层 特征集 细粒度 网络 转换 预测 联合 学习 | ||
本发明公开了一种利用问题‑知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,包括如下步骤:针对一段视频,利用Faster‑RCNN得到视频对象集;在外部知识库中检索视频对象集对应的注释文本,得到外部知识;使用Doc2Vec提取外部知识的语义特征,得到视频的知识特征集;针对问题,利用嵌入层(embedding layer)将输入单词转换为词嵌入向量;将词嵌入向量输入渐进式时空注意力网络,生成答案;本发明通过使用附加信息,可以回答更具体的问题,例如一些常识性问题;将外部知识与问题结合起来,在空间和时间维度上引导渐进式的视频注意力,学习细粒度联合视频表示以进行答案预测。
技术领域
本发明涉及视频问答答案生成领域,尤其涉及一种利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法。
背景技术
视觉问答(VQA)是一种用于连接计算机视觉(CV)和自然语言处理(NLP)的任务,它根据用户的问题自动从参考视觉内容返回准确的答案。根据视觉内容的类型,主要有两种视觉问答,一种是图像问答,另一种是视频问答。近年来,人们在视觉问答领域做了很多工作。但是,大多数现有工作都侧重于静态图像问答。
视频问答是一个新生领域,目前在该领域研究人员所做的工作比图像问答要少得多。与让计算机理解图像相比,让计算机理解视频更具挑战性。为了实现图像问答,最基本的方法是将文本内容和视觉内容映射到一个公共空间。之后,用这个联合表达预测给定问题的正确答案。本质上,视频是具有特定时间线的一系列静态图像,并且在处理视频内容时不能忽略视频固有的时间动态性。此外,视频中的大量帧是冗余的,与问题无关,这显然会影响视觉内容的表示。因此,在图像问答领域表现良好的方法拓展到视频领域可能无法有很好的表现。为了解决这个问题,研究人员提出了时间注意力机制这一概念。时间注意力机制的主要思想是冗余帧和不相关帧不应该和问题相关帧一样重要,换句话说,应该关注与问题相关的帧。另外,上下文信息在视频内容的逻辑理解中也起着重要作用。时间注意力机制也考虑到了这一点。
因为视频是图像序列,所以图像表示的方法可以用于视频表示。例如,可以使用CNN进行帧特征化。但是,这种方式是视觉内容的粗略表示,缺少更详细的信息,例如帧中的对象。这将导致这种方式不足以回答依赖于视频内容细节的问题。因此,最好在视频中添加有关详细信息的其他表示,例如帧中的对象。
回答人类提出的关于视觉内容的一般性问题,不可避免地需要参考视觉内容中未包含的外部知识。结构化知识库提供了这种辅助信息的显式表示。这些知识库可以通过手动注释(如DBpedia,Freebase和Wikidata)构建,也可以通过自动转换非结构化/半结构化数据(如YAGO,NEIL,OpenIE和ConceptNet)。近年来,研究人员对结构化知识库的自然语言问答任务(称为KB-QA)越来越感兴趣。KB-QA方法通常有两类:信息检索方法检索一组备用答案然后执行排名以获得最终答案;语义解析方法尝试将问题转换为逻辑表达式,然后映射到知识库查询。
使用外部知识的视觉问答系统仍然相对较少。Wu等人(Qi Wu,Peng Wang,ChunhuaShen,Anthony Dick,and Anton van den Hengel.2016.Ask me anything:Free-formvisual question answering based on knowledge from external sources.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition.4622-4630.)通过Word2Vec模型将从DBpedia提取的文本(知识)编码为矢量表示。他们将知识表示与视觉特征相结合,以使用LSTM模型预测最终答案。本发明试图将Wu等人提出的方法推广到视频领域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910965525.1/2.html,转载请声明来源钻瓜专利网。