[发明专利]一种基于场景结构的行人实时检测系统及方法有效
申请号: | 202010522569.X | 申请日: | 2020-06-10 |
公开(公告)号: | CN111860141B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 盛浩;王帅;崔正龙;杨达;王思哲 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/52;G06V20/40;G06V10/26;G06V10/82;G06N3/04 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽;顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 场景 结构 行人 实时 检测 系统 方法 | ||
1.一种基于场景结构的行人实时检测系统,其特征在于,包括:入口模块、数据收集模块、预处理模块和检测分割模块;其中:
入口模块,为数据收集模块、预处理模块、检测模块、输出模块的模块入口,同时为用户提供一个管理接口,方便用户从图形化终端管理;用户根据自己的实际需求,选择对应的模块进入,进行下一步的操作;该模块是用户登录的界面,在用户输入用户名和密码后,核检用户名和密码开放对应的权限;对于普通用户,仅提供在线查看权限,不可导出各项数据;对于管理员,提供全部权限,从入口模块提供的数据导出接口导出各项数据;
数据收集模块,负责系统运行时所需要的各个数据的收集,包括监控摄像机的实时视频数据和实时光场图像数据;通过摄像机拍摄目标场景图像,获取24小时内监控空间内连续的视频图像数据;通过光场相机获取24小时内监控空间内连续的光场图像数据;数据收集模块将获取到的视频图像数据和光场图像数据按照对应时间、对应几何坐标打包封装,并将封装后的数据作为输入传递给预处理模块;
预处理模块,首先接收数据收集模块传入的由视频帧序列组成的视频图像数据及光场图像数据,然后建立基于统计的分时段背景模板,并将该模板保存到数据库中;所述背景包括监控场景内的非行人区域以及遮挡区域;在建立基于统计的分时段背景模型时,采用基于统计的分时段背景建模方法,首先依据24小时内的光照强度变化,设定多个时间段,将获取的视频图像数据和光场图像数据分类,然后分时段计算帧背景模板,并使用光场图像数据对帧背景模板进行过滤,获取最终的分时段背景模板;
检测分割模块,首先接收预处理模块得到的分时段背景模板以及数据收集模块得到的视频图像数据和光场图像数据,然后根据输入的视频图像数据和分时段背景模板,判定当前监控空间所属时间段与类别,选择对应时间段的预设参数和对应时间段的背景模板;根据预设参数和背景模板,使用基于场景结构的检测分割算法利用基于背景滤波的深度神经网络和语义分割网络提取视频图像特征,并根据预处理模块计算得到的基于光场图像的场景深度信息进行辅助过滤,获得行人的检测分割结果;并将行人检测分割结果传递到道路估计模块中与输出模块中;
道路估计模块,负责估计监控空间的道路概率分布以及监控空间场景出入口;根据检测分割模块所获得的行人检测分割结果,获得一个叠加区域,根据预处理模块获得的分时段背景模板对叠加区域进行过滤,得到多个时段下监控空间内行人行走道路的概率分布和道路出入口;
输出模块,将数据收集模块得到的视频图像数据及检测分割模块得到的行人检测分割结果打包保存到数据库中,并提供数据访问的接口,用户通过该接口查看行人检测分割结果以及行人行走道路的概率分布和场景出入口;
所述检测分割模块中,采用的基于场景结构的检测分割算法实现如下:
(1)如果基于背景滤波的深度神经网络已经完成训练,则转入步骤(4),否则,转入步骤(2);
(2)构建基于背景滤波的深度神经网络,所有的输入图像被重设为416×416尺寸的帧图像,所有的帧图像经过一个卷积层和池化层的处理,然后被送入第一个组合层ccr,组合层后使用卷积层进一步降低特征维度;紧接着连续堆叠三个组合层,然后同样使用卷积层降低特征维度;进一步堆叠6个组合层和一个卷积层;再堆叠6个组合层和一个卷积层,提取该卷积层的输出作为第一个分支;该卷积层后使用三个卷积层和一个上采样层,将此时的输出与第一个分支的输入进行拼接,作为第二个分支的输入;在该上采样层后使用卷积层降低维度,然后添加上采样层,将上采样层的输出与第二个分支的输入进行拼接,作为第三个分支的输入;第一个分支使用一个3*3的卷积层和1*1的卷积层获取第一个尺度的检测框;第二个分支使用一个3*3的卷积层和1*1的卷积层获取第二个尺度的检测框;第三个分支使用一个3*3的卷积层和1*1的卷积层获取第三个尺度的检测框;最后得到了三种不同尺度下的行人检测框;
(3)基于背景滤波的深度神经网络首先在提前下载好的互联网开源数据集ImageNet上进行训练,所有图像被重设为416×416的固定尺寸并被输入基于背景滤波的深度神经网络,再采用梯度下降法更新基于背景滤波的深度神经网络中所有层,共57层,的权重参数;在ImageNet上完成训练之后,固定权重参数并保存基于背景滤波的深度神经网络的结构和所有权重参数;
(4)加载完成训练的基于背景滤波的深度神经网络的模型文件,建立基于背景滤波的深度神经网络;加载完成预训练的掩膜区域生成网络MaskRCNN作为语义分割网络,在步骤(11)中使用;
(5)将获取的视频图像数据和光场图像数据划分为帧序列,并按照多个时间段归类;
(6)前景划分,从帧序列中取出一帧,根据其所属的时间段,从所属的时间段背景模板中选择对应时间段的背景模板;根据所述背景模板,计算当前帧和背景模板的差值,差值小于阈值的区域像素值置为0,其余位置像素值不变,则像素值不为0的区域为前景区域;
(7)获取初步检测,将划分完前景区域的帧大小修改为固定尺寸,用加载完成的基于背景滤波的深度神经网络对该帧进行处理,将基于背景滤波的深度神经网络的三个分支输出的检测框进行合并,并采用非极大抑制法对合并的检测框进行过滤,过滤后剩下的检测框即为初步检测;
(8)采集初步检测对应区域的深度数据d,根据检测框在图像中对应的坐标位置,从该帧对应的光场图像数据中获取检测框对应像素点区域的平均光场深度其中p为检测框对应像素点区域的像素数量;
(9)光场辅助检测,根据公式计算得到场景结构的水平高度,其中H和θ分别为安装相机时获得的相机水平高度和相机俯仰角,h代表场景结构的水平高度;
(10)根据水平高度对步骤(7)中得到的初步检测进行过滤,如果某一检测水平高度不在阈值范围内,检测框被视为错误的检测,删除该检测框,最终保存剩下的检测,得到过滤后的检测;
(11)使用语义分割网络对过滤后的检测进行语义分割,得到分割结果,并将分割结果和过滤后的检测合并为统一的行人检测分割结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010522569.X/1.html,转载请声明来源钻瓜专利网。