[发明专利]一种基于语义信息引导的视频内容描述方法有效

专利信息
申请号: 201710174883.1 申请日: 2017-03-22
公开(公告)号: CN107038221B 公开(公告)日: 2020-11-17
发明(设计)人: 颜成钢;涂云斌;冯欣乐;李兵;楼杰栋;彭冬亮;张勇东;王建中 申请(专利权)人: 杭州电子科技大学
主分类号: G06F16/783 分类号: G06F16/783;G06K9/46;G06K9/00
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 杜军
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 信息 引导 视频 内容 描述 方法
【说明书】:

发明一种基于语义信息引导的视频内容描述方法。本发明包括如下步骤:步骤(1)对视频格式进行预处理;步骤(2)建立用于引导的语义信息;步骤(3)计算语义特征向量[Ai,XMS(i)]的权重步骤(4)对语义特征向量[Ai,XMS(i)]进行解码;步骤(5)对视频描述模型进行测试。本发明通过利用faster‑rcnn模型,能快速检测每帧图像上的关键语义信息,并加入到原有用CNN提取的特征中,使得每个时间节点输入LSTM网络的特征向量具有语义信息,从而在解码过程中,既保证视频内容时空关联性,又提高了语言描述的准确率。

技术领域

本发明属于计算机视觉与自然语言处理技术领域,涉及一种基于语义信息引导的视频内容描述方法。

背景技术

一、视频内容描述方面

之前在视频内容描述方面的研究工作主要分为两个方向:

1.基于特征识别与语言模板填充的方法。具体而言,该方法分为两个步骤,首先将视频按照一定的时间间隔转化成具有连续帧的图像集合;其次,使用一系列预先在大规模的图像训练集中训练好的特征分类器,将视频中的静态特征与动态特征分类标记,具体而言,这些特征可细分为实体、实体属性、实体间的交互关系以及场景等;最后,根据人类语言的特点制定一个“主语,谓语,宾语”的语言模板,在按分类器估计出的概率大小将概率最大的特征填充到语言模版中。

2.基于深度学习的编码-解码方法。该研究方法来源于早前的图像内容描述中,其首先利用预先训练好卷积神经网络(CNN)提取图像特征;其次将其编码成一个适当维数大小的向量形式;最后利用递归神经网络(RNN)通过在大规模图像训练集中学习后,将编码后的向量进行解码,最终转化为一个大小为V的向量,V代表候选单词的维度,并运用多分类回归softmax从中挑选概率值最大索引,循环t个时间节点,直到返回的索引为0停止循环(因人为规定0序号索引为停止字符),最后将由索引组成的序列对应到事先准备好的字典中去,每个字典中都标注了每个索引所对应的单词。所以,生成的单词序列和字典中索引值相同即输出对应单词,如果在字典中无对应索引,则输出UNK(未知),遇到0(eos)则代表结束,对比t次即可生成此图像的描述。所以,利用此研究基础,在视频描述中,同样利用预先训练好的卷积神经网络(CNN)将视频转化后的每一帧图像编码成一个适当维数的向量;最后同样利用递归神经网络(RNN)将这些向量解码成一系列候选单词并将其组合成视频描述。

二、语义信息引导方面

语义信息引导目前的研究主要集中在图像内容描述中,具体而言,语义信息在这里主要指与待描述的图像内容和描述语言最为相关的额外信息,该信息可以通过近邻域检索的方式,通过从图像训练集中搜索出与待描述图像最相似的几幅图像,按相似度排名(例如取相似度最高的十幅图像),并将其对应的人工描述用于递归神经网络的解码过程,作为解码过程的引导,目的是使得生成的语言描述更符合人类语言习惯。

对于视频描述现有的方法而言,第一种基于特征识别与语言模板填充的方法不仅需要训练大量的特征分类器用于特征识别,而且在将这些特征填充进语言模板时,容易导致生成的语言描述不完整或不符合人类语言习惯,也就是该使用哪些特征以及这些特征怎么有效结合是导致生成的语言描述正确率很低的关键因素。对于第二种方法,虽然其是目前该研究领域中最为先进也是准确率最高的方法,但是在如何将一系列编码后的图像特征向量融合成一个固定的、具有时间序列的向量仍存在较大的问题,例如:在现有的研究中,有人在融合过程中仅简单的对这些向量集合取平均值,这显然忽略了视频内容中事件间的时空关联性;另外,有人为了保留时间序列引入了注意力模型,即对所有的向量计算权重大小,在特定的时间点只解码权重最大的向量,但该方法并没有很好地区分出向量中的动态特征和静态特征等等。所以在视频描述方面现有研究方法仍然具有较大的改进空间。

对于语义信息引导方面,目前相关研究主要集中在图像描述方面,并且在提升描述准确度方面取得了显著的效果。所以该方法在与视频描述有效结合上具有较大的研究空间。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710174883.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top