[发明专利]利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法在审
申请号: | 201910965525.1 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110704601A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 赵洲;张品涵;金韦克;陈默沙 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/78;G06N3/04;G06K9/00 |
代理公司: | 33200 杭州求是专利事务所有限公司 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 注意力 外部 向量 嵌入 知识库 时空 答案 附加信息 检索视频 时间维度 视频表示 视频对象 输入单词 语义特征 知识引导 注释文本 常识性 对象集 嵌入层 特征集 细粒度 网络 转换 预测 联合 学习 | ||
1.利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于,包括如下步骤:
S1:针对一段视频,利用Faster-RCNN得到视频对象集;
S2:在外部知识库中检索视频对象集对应的注释文本,得到外部知识;
S3:使用Doc2Vec提取外部知识的语义特征,得到视频的知识特征集;
S4:针对问题,利用嵌入层将输入单词转换为词嵌入向量;
S5:构建渐进式时空注意力网络,包括问题感知知识注意力单元、时空注意力单元和LSTM神经网络;将步骤S4得到的词嵌入向量输入到LSTM神经网络中,得到LSTM的隐藏状态;将步骤S3得到的视频的知识特征集和LSTM的隐藏状态输入到问题感知知识注意力单元中,得到单词的外部知识表达;将单词的外部知识表达、LSTM隐藏状态和视频中的所有样本帧输入到时空注意力单元,生成针对问题的答案。
2.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S1具体为:
针对一段视频,使用在MS COCO数据集上预先训练的Faster-RCNN网络来检测每个样本帧中的对象;对于视频中的第j帧,选择得分最高的前D个对象构成第j帧的对象集,表示为oj=(oj1,oj2,...,ojD);对于整段视频,将所有帧中出现次数最多的前E个对象作为视频对象集ov。
3.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S2具体为:
使用外部知识库DBpedia作为背景信息,DBpedia是维基百科中所提取信息的结构化数据库,使用查询语言SPARQL访问DBpedia中的数据;将ov中的视频对象作为关键字来生成DBpedia查询,检索ov中每一个视频对象对应的注释文本,将注释文本作为外部知识。
4.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S3具体为:
使用Doc2Vec来提取外部知识的语义特征,获得视频的知识特征集fk,表示为其中fik表示视频中第i个对象的知识特征,i=0,1,...E。
5.如权利要求1所述的利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,其特征在于所述步骤S4具体为:
将问题所含单词逐个输入嵌入层中,得到每个单词对应的词嵌入向量,最终得到问题的单词级别表达q=(q1,q2,...,qn),其中n是问题所含单词的数量,qt是问题中第t个单词的词嵌入向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910965525.1/1.html,转载请声明来源钻瓜专利网。