[发明专利]一种基于深度学习判断视频行为的监控系统和方法有效
申请号: | 201810411723.9 | 申请日: | 2018-05-02 |
公开(公告)号: | CN108600701B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 陈劲全;田菁;余卫宇;林俊科 | 申请(专利权)人: | 广州飞宇智能科技有限公司 |
主分类号: | H04N7/18 | 分类号: | H04N7/18;H04N5/76;G08B13/196;G06N3/08 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 李芙蓉;冯建基 |
地址: | 511430 广东省广州市番*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 判断 视频 行为 监控 系统 方法 | ||
1.一种基于深度学习判断视频行为的监控系统,其特征在于,包括监控端和服务端;所述监控端包括摄像头和前端报警模块;所述服务端包括云平台视频数据库、离线视频数据库、深度学习判断模块和异常事件报警模块;
所述摄像头用于实时采集视频信息并发送到所述云平台视频数据库进行存储;
所述云平台视频数据库用于存储所述摄像头发送的视频信息并转发深度学习判断模块进行行为分析;
所述离线视频数据库用于存储视频信息供所述深度学习判断模块构建行为判断模型;
所述深度学习判断模块用于根据所述离线视频数据库内的视频构建行为判断模型,根据所述行为判断模型对接收到的视频进行行为判断,根据判断结果发送报警命令到所述前端报警模块和所述异常事件报警模块;所述前端报警模块是报警灯或者喇叭;所述异常事件报警模块是报警灯或者喇叭;
所述前端报警模块和所述异常事件报警模块根据接收到所述报警命令进行报警;
所述深度学习判断模块包括特征提取模块、特征融合拼接模块、语义编码确定模块、特征解码模块和分类报警模块;
所述特征提取模块用于对待描述视频分别提取物体、场景、行为动作以及光流特征;
所述特征融合拼接模块用于将物体、场景、动作以及光流特征和3D卷积特征融合拼接成一个特征向量;
所述语义编码确定模块用于采用时空注意力机制加权确定视频的语义编码表达;
所述特征解码模块用于将所述语义编码输入到基于双向的长短时记忆网络模型进行特征解码,生成与视频对应的自然语言描述句子;
所述分类报警模块用于根据所述视频描述语句的内容发出相应的报警命令;
所述特征提取模块包括物体场景行为动作特征提取子模块、3D卷积特征提取子模块和光流特征提取子模块;
所述物体场景行为动作特征提取子模块包括分帧图像抽取单元和特征向量生成单元;
所述分帧图像抽取单元用于对待描述视频按照指定的帧频fps进行分帧,并随机抽取其中的80帧图像用于下一步作特征提取;
所述特征向量生成单元用于将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征,最终得到三个1024维的特征向量;
所述3D卷积特征提取子模块包括中间模型的参数保存单元和512维特征向量生成单元;
所述中间模型的参数保存单元用于将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能较好的中间模型的参数;
所述512维特征向量生成单元用于将待描述视频输入所述中间模型中提取网络结构中pool5层的特征用于表示3D卷积特征,得到一个512维的特征向量;
所述光流特征提取子模块包括光流特征值计算单元、光流图合成单元和光流特征向量生成单元;
所述光流特征值计算单元用于分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;
所述光流图合成单元用于计算光流的幅度值,并结合所述光流特征值组合成一张光流图;
所述光流特征向量生成单元用于利用所述光流图训练一个卷积神经网络GoogleNet,并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量;
所述特征融合拼接模块包括融合特征生成单元和特征向量主成分分析PCA降维单元;
所述融合特征生成单元用于对物体、场景、动作以及光流特征和3D卷积特征进行直接拼接,用F表示特征,拼接M种模型提取的特征,对于每种模型生成的特征用Fi表示,选取特征的组合直接拼接得到的融合特征为Vfusion;
所述特征向量主成分分析PCA降维单元用于对拼接起来的4608维度的特征向量进行主成分分析PCA降维得到1024维特征向量;
所述语义编码确定模块包括时空顺序单元、时间注意力单元和空间注意力单元;
所述时空顺序单元用于确定空间注意力机制和时间注意力机制引入的顺序;
所述时间注意力单元用于让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧,避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突;
所述空间注意力单元用于让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调,分配更大的权重,让模型的注意力更集中在该区域的内容;
所述基于双向的长短时记忆网络模型的基本单元是LSTM神经单元;所述双向的长短时记忆网络通过过去时刻的上下文信息和未来的上下文信息共同进行输出预测;
所述特征解码模块包括前向传播过子模块、网络优化子模块和描述语句生成子模块;
所述前向传播过子模块用于计算所述LSTM神经单元在前向传播过程特定时刻的隐藏层变量,通过正向计算和反向计算分别得到两个隐藏层变量值;
所述网络优化子模块用于在解码阶段根据隐藏层变量和上一时刻的输出预测最大化整个输出预测语句的对数似然函数;
所述描述语句生成子模块包括单词出现概率计算单元和取单词单元;
所述单词出现概率计算单元用于采用softmax激活函数计算每个单词在词汇表V中的出现概率;
所述取单词单元用于在解码阶段取softmax激活函数输出值中概率最大的单词组成对应的视频描述语句;
所述分类报警模块包括刷脸门禁报警单元、体征状态实时监测报警单元、跌倒异常行为报警单元、人员进出提醒单元、泳池溺水报警单元、破坏行为报警单元、火灾监控报警单元和暴力行为报警单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州飞宇智能科技有限公司,未经广州飞宇智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810411723.9/1.html,转载请声明来源钻瓜专利网。