[发明专利]视频多事件的裁剪及文本描述方法及其装置、设备和介质有效

专利信息
申请号: 201910223219.0 申请日: 2019-03-22
公开(公告)号: CN111723238B 公开(公告)日: 2023-05-12
发明(设计)人: 黄义镛;胡强 申请(专利权)人: 曜科智能科技(上海)有限公司
主分类号: G06F16/78 分类号: G06F16/78;G06F16/71;G06F16/738;G06N3/0464
代理公司: 上海光华专利事务所(普通合伙) 31219 代理人: 高彦
地址: 201203 上海市浦东新区中国*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 视频 多事 裁剪 文本 描述 方法 及其 装置 设备 介质
【说明书】:

本申请提供的一种视频多事件的裁剪及文本描述方法及其装置、设备和介质,通过光流法对视频去抖动,通过进行3D卷积得到视频的时空特征,并生成多个包含一个事件的候选时间区间特征,对候选时间区间微调后得到多个包含一个事件准确起始和结束时间的短视频;然后对每个短视频的视频帧图像通过预训练的网络得到2D卷积特征,通过双向LSTM编码器模型得到视频内容的上下文信息,最后通过LSTM解码器逐个生成单词得到每个短视频中事件的描述,从而得到针对完整视频的完整描述。本申请对事件视频截取采用了卷积神经网络,能够并行处理从而提高了处理速度,能够高效准确地提取视频过程中的每个事件且无需人工观看视频,还便于后续事件视频检索与统计。

技术领域

发明涉及图像处理与自然语言处理技术领域,特别是涉及一种视频多事件的裁剪及文本描述方法及其装置、设备和介质。

背景技术

对于人来说,通过看一段视频并描述其内容是一个很简单的任务,但对于机器来说要从视频像素中挖掘出其内容并生成一段自然语言描述是非常复杂的。随着互联网的发展,多媒体视频的数据量急速增加,使用自然语言描述视觉内容近年来已逐渐引起关注,它在人机交互、视频索引和视频自动摘要等领域有着重要作用。近年来对视频进行描述的方法也不断被提出,但基本上都是由Encoder和Decoder两个模块组成,利用视频特征进行编码,再通过解码模块得到对视频的文本描述。

举例来说,执法人员在执法过程中通常佩戴有执法记录仪用于记录执法过程中所发生的事件,而执法过程中执法人员注意力无法一直高度集中,可能存在执法人员没有注意到的事件发生,执法人员完成执法任务后需要回顾执法记录仪所拍摄的视频对发生的事件进行记录,这需要执法人员花费大量的时间和精力提取并记录事件,因此,亟需一种基于视频事件能够自动提取的技术来减轻执法人员工作负担。

发明内容

鉴于以上所述现有技术的缺点,本申请的目的在于提供一种视频多事件的裁剪及文本描述方法及其装置、设备和介质,以解决现有技术中视频事件提取的问题。

为实现上述目的及其他相关目的,本申请提供一种基于视频多事件裁剪及文本描述方法,所述方法包括:获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注;依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列;对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间;根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表;将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。

于本申请的一实施例中,所述利用基于光流法的去抖算法对所述视频进行预处理的方法包括:根据所述视频中的特征点计算变换矩阵;将所述变换矩阵应用在所述视频上;遍历所述视频取所有帧的公共区域形成一掩膜,计算所述掩膜的最大内接矩形,并将所述掩膜套在所述视频上以去除黑边。

于本申请的一实施例中,所述标注方法包含:标注所述视频中每一个事件发生的时间区间中点和时间长度,并用30个相似或相同的句子对每一个所述事件进行描述。

于本申请的一实施例中,所述深度时空特征序列的获取方法包括:使用双线性插值算法将所述视频中各视频帧大小变形为240×240;每次连续不重叠地取16个视频帧序列,通过使用基于数据集预训练过的C3D网络模型,提取所述C3D网络模型的第五层卷积层的输出,以作为所述视频对应的深度时空特征序列;其中所述数据集为行为识别数据集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曜科智能科技(上海)有限公司,未经曜科智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910223219.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top