[发明专利]一种基于实体关系抽取的视频描述方法与装置在审
申请号: | 201910862713.1 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110688916A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 钟珞;陈淑琴;钟忺;袁景凌;李琳;宋华珠;黄文心;谬永飞;罗振军 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06F16/71;G06F16/783 |
代理公司: | 42102 湖北武汉永嘉专利代理有限公司 | 代理人: | 钟锋 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系 视频描述 视频 句子 抽取 排序 词表 还原视频 混合特征 句子生成 三维特征 视频数据 视频特征 特征提取 向量化 二维 语料 改进 | ||
1.一种基于实体关系抽取的视频描述方法,其特征在于,包括以下步骤:
1)获取视频数据集,并对视频进行特征提取;所述特征包括二维、三维特征以及二者的混合特征;
2)对视频中出现的实体进行抽取,然后对实体关系进行向量化表征;
2.1)对视频中出现的实体进行抽取,抽取的实体按照时间顺序进行排列,并按照此顺序进行配对,配对得到实体对作为实体关系;
2.2)对步骤2.1)中的实体关系在关系库中进行索引和查找,将找到的全部关系以及关系词添加到词表中,完成对缺失词的填充;
2.3)对实体关系进行向量化表征;
3)根据提取的视频特征和实体关系表征,获得视频描述;
3.1)采用LSTM对步骤1)提取的视频特征进行编码,并保存经过LSTM网络层之后的隐藏状态;
3.2)构建用于视频描述输出语言模型,语言模型的输入包含编码阶段的视频输入,attention权重矩阵,以及在不同时刻的实体关系向量;
所述attention权重矩阵通过语言模型的隐藏状态和步骤3.1)保存的隐藏状态进行相似度计算获得;
3.3)根据语言模型的输出,获得多个视频描述;
4)提取视频的关键词,将关键词与多个视频描述进行结合,对所有生成的句子进行排序,排序最靠前的句子即为最终的视频描述。
2.根据权利要求1所述的基于实体关系抽取的视频描述方法,其特征在于,所述步骤1)中通过深度神经网络VGG和C3D进行特征提取。
3.根据权利要求1所述的基于实体关系抽取的视频描述方法,其特征在于,所述步骤2.1)中实体配对具体如下:记录实体关系对出现的时刻,并按照出现的时刻顺序进行配对,配对得到实体对作为实体关系。
4.根据权利要求1所述的基于实体关系抽取的视频描述方法,其特征在于,所述步骤2.1)中用Faster-RCNN对视频中出现的实体进行抽取。
5.根据权利要求1所述的基于实体关系抽取的视频描述方法,其特征在于,所述步骤2.2)中对实体关系在关系库中进行索引和查找,完成对缺失词的填充,具体如下:
首先将找到的多个关系以及关系词添加到训练集词表中去,完成对缺失词的填充,如果在实体关系库中找不到该对实体,那么将单个实体词最匹配的关系添加到词典中。
6.根据权利要求1所述的基于实体关系抽取的视频描述方法,其特征在于,所述步骤3.2)中构建用于视频描述输出语言模型为LSTM-ER输出语言模型,所述语言模型具体如下:
从视频中学习到高层语义属性引入到CNN加LSTM的基本描述生成框架中;在编码阶段,采用提取VGG特征和C3D特征,将两者特征融合,作为高层语义输入到LSTM中;在解码阶段,利用生成的实体关系表征,提取视频的关键词,获得视频描述。
7.根据权利要求6所述的基于实体关系抽取的视频描述方法,其特征在于,所述语言生成模型的解码阶段中,
实体关系矩阵的输入是根据实体在视频中出现的位置,按照时序性加入到需要解码的当前时刻;
交叉熵损失是通过对模型预测的单词和真实的描述计算获得。
8.根据权利要求1所述的基于实体关系抽取的视频描述方法,其特征在于,所述步骤4)具体如下:
4.1)采用video tagging方法提取视频的关键词;
4.2)基于关键词构造场景相似度模型;
4.3)将生成的多个描述用相似度模型进行排序,排序最靠前的描述作为输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910862713.1/1.html,转载请声明来源钻瓜专利网。