[发明专利]一种基于LSTM网络的多标签视频事件检测方法有效

申请号：	201711053139.2	申请日：	2017-10-31
公开（公告）号：	CN107818307B	公开（公告）日：	2021-05-18
发明（设计）人：	苏育挺;刘瑶瑶;刘安安	申请（专利权）人：	天津大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	杜文茹
地址：	300192***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lstm 网络标签视频事件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于LSTM网络的多标签视频事件检测方法：将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型，包括：获取每一个视频图像序列对应所有标签集的概率分布和通过所得概率分布更新网络，得到基于LSTM网络的模型；对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。本发明通过本发明的方法生成监控视频的多个事件报告，回避了对象监测和跟踪过程；针对监控视频的处理基于长短期记忆网络设计了全新的网络结构；大幅提高了监控视频处理的效率和鲁棒性，改善了传统方法针对同时发生的多个事件识别效果差的问题。

技术领域

本发明涉及一种视频事件检测方法。特别是涉及一种基于LSTM网络的多标签视频事件检测方法。

背景技术

监控录像的目的是监控录像中发生的人类行为、活动或其他视觉事件。现在，在军事、公共安全、商业和法律等领域的应用越来越多。这个领域的发展，是随着廉价计算能力的增加，数码相机的普及，以及图像传感器的普及而崛起。此外，人工监测和监测系统的效率低下(如参考文献[1])也是一个因素。我们都知道，人类不可能不断地处理大量的数据。由于这个原因，错误通常会发生。此外，人工观察输出的资源非常昂贵。因此，如何得知视频中的内容信息已经是一个引起广泛关注的问题。

目前已经提出了多种方法来检测视频事件。首先，无标记的基于视觉的人体运动分析有可能提供一个廉价的、不引人注目的方法来估计人体的姿势。因此,它广泛应用于运动分析。Fujiyoshi等(如参考文献[2])提出了“恒星”骨架化过程来分析目标运动。其次，行动或集体活动识别可以在视频中告诉我们动作或群组事件的存在。提出了一种基于早期局部时空特征的浅高维编码的视频动作识别方法。在稀疏时空的兴趣点可以用局部时空来描述特征，包括梯度向量的直方图(HOG)和光流直方图(HOF)。这些特性随后被编码成特征包(BoF)描述子(如参考文献[3])，然后使用支持向量机进行分类任务。此外，近期组活动识别方面也有着大量的相关工作。绝大部分之前的工作都是使用人工设计的特征来表述时空中的个体(如参考文献[4])。Lan等(如参考文献[5])提出代表了从较低的人级信息到较高的群体层次的交互层次关系的自适应潜在结构学习。最近，多任务学习方法已应用于人类群体活动识别。其中，Liu等(如参考文献[6])提出了一种层次聚类多任务学习对人类行为进行分组和识别。再次，视频摘要是用于视觉理解和显示的另一种方法。有几个方法可以从一个长视频中生成视频摘要。一种代表性方法是对一个物体和活动出现在不同时间段的视频生成概要。Pritch等(如参考文献[7])还提出了一种新的方法，可以根据类似的事件活动簇生成短而连贯的视频梗概。另一种方法产生基于文本的摘要。Chu等人(如参考文献[8])提出了一个多媒体分析框架同时处理视频和文本，通过场景图共同构建实体之间的关系来理解事件(如参考文献[9])。目前的大多数方法都需要处理多项具有挑战性的视觉分析任务。Lee对于视频背景去除提出了一个有效的高斯混合学习方法。Dai等提出了一种鲁棒的R-FCN对象检测网络。上述任务的进展提高视频报告的性能。

虽然现有的方法已经在处理某些方面的问题上展现出了有效性，针对于自动理解监控视频的处理仍有着诸多的挑战和局限性。主要的挑战来自以下两个方面：数据的复杂性和处理方法的问题。针对于数据本身而言，主要的挑战在于分辨率低、数据量大、事件集和情景复杂、数据来源闭塞。对于方法而言，主要有以下的限制：1)很多方法依赖于前景背景分割技术，然而这一技术会造成错误累加。2)很多方法依赖于检测和跟踪，然而对于不同的视频和移动的对象，检测和跟踪的鲁棒性较低。这些缺点降低了时间分析的效率。3)当数据量增大时，计算量会大幅提升。4)真实生活中的事件检测大多数是多标签的问题。尤其是在于监控视频之中，多个事件会同时发生。然而，动作识别和组识别都是基于单一标签的事件检测方法。因此这两种识别方法会丢失同时发生的时间。

LSTM网络的成功之处在于其独特的结构。它可以针对多帧信息进行编码，并且生成一系列连续的动作/活动。更进一步的是，LSTM网络模型可以处理输入和输出长度不同的问题。这些优势与监控视频的处理良好地切合(输入是视频，而输出是一系列事件)。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711053139.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于注意力模型的视频问答方法
下一篇：一种人脸识别智能比对方法、电子装置及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于LSTM网络的多标签视频事件检测方法有效

专利文献下载