[发明专利]利用知识库渐进时空注意力网络解决视频问答任务的方法有效
申请号: | 201910080580.2 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109829049B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 赵洲;朱超凡 | 申请(专利权)人: | 杭州一知智能科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/783;G06F16/73;G06K9/00;G06N3/04 |
代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 王闯 |
地址: | 310052 浙江省杭州市萧山*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 知识库 渐进 时空 注意力 网络 解决 视频 问答 任务 方法 | ||
1.利用知识库渐进时空注意力网络解决视频问答任务的方法,用于解决视频问答任务,其中视频问答任务包括用户输入的问题,由帧图像组成的视频,其特征在于包括如下步骤:
1)设计一种问题方面的知识库注意力机制对视频问答任务中用户输入的问题进行编码,获取结合了知识库信息的问题隐层状态输出和问题每个单词的隐层状态输出;
对视频问答任务中用户输入的问题,将问题中的各个单词利用单词映射的方式,获得问题中各个单词的映射向量q=(q1,q2,...,qn),其中qt代表问题中的第t个单词的映射向量,n代表问题中的单词个数;将问题中各个单词的映射向量q=(q1,q2,...,qn)依次输入到问题的长短时记忆神经网络单元LSTMq中,获取问题中每个单词对应的问题的长短时记忆神经网络单元LSTMq的隐层状态输出其中代表问题中的第t个单词输入到问题的长短时记忆神经网络单元LSTMq中,获取的对应的隐层状态输出;n代表问题中的单词个数;
将视频问答中视频的每个帧图像利用提前训练好的Faster-RCNN网络,获取每个帧图像中最可能含有的5个对象物体;对于视频所有帧分别预测出的5个最可能含有的对象物体,统计出现次数最高的8个物体构成该视频的对象物体集合ov=(ov1,ov2,...,ov8);对于该视频的对象物体集合ov中每个对象物体,利用DBPedia数据库分别获取每个对象物体的描述;将该视频的对象物体集合ov中每个对象物体的描述输入到提前训练好的Doc2Vec模型中,获取该视频的对象物体集合ov中每个对象物体的知识特征向量其中fik代表该视频的对象物体集合ov中第i个对象物体的知识特征向量,E=8;
利用获取的问题每个单词的隐层状态输出视频的对象物体集合ov中每个对象物体的知识特征向量按照如下公式获取结合了知识库信息的问题第t次循环的隐层状态输出
其中,W、Wq、Wk代表可训练的权重矩阵,b代表可训练的偏置向量,tanh()代表双曲正切函数,exp()代表以自然底数e为底的指数运算函数,E=8,代表问题第t个单词的隐层状态输出,fik代表视频的对象物体集合ov中第i个对象物体的知识特征向量;则利用如上方法可以得到结合了知识库信息的问题隐层状态输出
2)利用步骤1)中设计的问题方面的知识库注意力机制的输出,设计一种时空注意力单元对视频问答任务中的视频进行编码,获取含有时空注意力信息的各个时刻视频编码;
3)利用步骤2)获得的含有时空注意力信息的各个时刻视频编码,获取对应的含有时空注意力信息的视频帧第n次隐层状态输出;
利用步骤1)中获取的结合了知识库信息的问题隐层状态输出、问题每个单词的隐层状态输出与获取的含有时空注意力信息的视频帧第n次循环隐层状态输出,设计一种答案生成器,利用该答案生成器获得视频问答任务的答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司,未经杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910080580.2/1.html,转载请声明来源钻瓜专利网。