[发明专利]一种基于图神经网络的密集事件描述方法在审
申请号: | 202110075596.1 | 申请日: | 2021-01-20 |
公开(公告)号: | CN113158735A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 任柯燕;钱欣艳;岳天一;张淳;张文济 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 密集 事件 描述 方法 | ||
本发明公开了一种基于图神经网络的密集事件描述方法,能够根据视频生成包含全部事件的时间及对应文字描述。该方法包括以下步骤:利用光流法、3D卷积网络和2D卷积网络分别对视频数据提取特征;对2D卷积网络提取的特征建立空间图,通过图卷积网络迭代后生成的特征与光流法、3D卷积特征拼接为长特征;采用锚边框对不同时间段的特征进行检测,划分为不同密集事件时间区域;采用非极大值抑制策略来消除重叠区域过多及分数较低的候选时间区域;对每个候选区域特征构建时间图,通过GAT更新每节点特征;将每个候选区域特征通过LSTM解码成对应文字输出。本发明结合空间信息和时序信息生成更精确的事件发生时间和对应的描述语言。
技术领域
本发明涉及视频描述技术领域,具体为一种基于图神经网络的密集事件描述方法。
背景技术
视频描述是将视频中的信息内容用语言进行描述,主要针对视频中发生的一件事进行文字表述,而密集事件描述是在此基础上对视频中发生的多个事件进行划分并分别进行描述,该研究领域是将计算机视觉与自然语言处理相结合的一个研究方向,是具有现实意义和研究价值的研究方向,现有技术能够将视频用文字描述但无法确定其具体发生时间,也并未考虑视频时序上的问题,本发明则希望获取较为精确的事件发生时间以及准确的语言描述,可得到视频中不同事件发生的起始、终止时间及事件描述。
针对视频特征提取问题,与图像不同,视频具有时序意义,虽然已经出现3D卷积等提取带有时序信息的特征,但提取效果仍然不够好。针对密集事件描述的时间划分问题最常见的方法是动作概率分布曲线,将事件提案划分拆分为两个阶段,首先通过单帧图像分析得到当前时间点是否为动作的概率估计,应用在整个视频帧序列上则可得到横坐标对应视频时长方向的动作概率分布曲线,然后从高概率的区域产生候选时序动作区域提议,最后将候选提议特征送入动作分类器给出时序动作检测的结果,但该方法容易出现提案缺少的情况,视频中的事件无法全面识别。视频描述的研究主要包含基于语言模板的描述生成和基于序列学习的描述生成。基于语言模板的方法会将检测得到的关键词与预先定义好的语言模板结合生成句子序列,但该方法不够灵活,局限于模板的个数以及种类,无法形成多样性的句子,而基于序列学习的语言描述是利用卷积神经网络+循环神经网络的框架生成更加灵活多变的语言句子,但由于视频是带有时序信息的图片组成,因此时序信息对语言的描述是很重要的,很好的利用时序信息能够更好地完成于语言描述。
针对相关技术中的问题,目前尚未有有效的解决方案。
发明内容
本发明为了解决现有技术无法准确描述视频中出现多个事件的问题,技术方案采用光流法、3D卷积网络和2D卷积网络对视频提取特征,并通过对视频构建空间图和时间图更好地学习视频中时间维度和空间维度信息,以便更好地进行密集事件描述。本发明的目的在于将一段视频中所有的密集事件发生时间进行分割,依次用语言文字对每个事件进行描述。
发明点包括:通过光流法、3D卷积网络和2D卷积网络三种方式对视频提取特征,其中,光流法提取视频动作特征,3D卷积网络提取视频视觉特征,2D卷积网络提取视频对象,若其中任意一种方式缺失,则对视频的特征获取不完整。为获取对象间的关系,对2D卷积网络识别后的对象建立空间图,通过现有的图卷积神经网络技术更新对象特征,使其带有相邻对象特征。建立固定大小的锚边框并针对不同起始时间生成不同候选时间区域,通过非极大值抑制筛选IoU大于阈值的时间区域,输出时间区域对应的起始终止时间。为每一个时间区域建立时间图获取时间区域前后帧的信息,将时间区域中每组长特征作为图节点,使用现有的GAT网络对其节点更新。最后将特征通过LSTM解码成语言文字,并与之前的时间区域相对应输出。
一种基于图神经网络的密集事件描述方法,具体包括以下步骤:
(1)利用光流法、3D卷积网络和2D卷积网络分别对视频数据提取特征,其中,光流法提取视频动作特征,3D卷积网络提取视频视觉特征,2D卷积网络提取视频对象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110075596.1/2.html,转载请声明来源钻瓜专利网。