[发明专利]一种实时行人检测方法及神经网络、目标检测层有效
申请号: | 201910095995.7 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109840498B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 胡永健;阿尔法西·萨吉尔·艾哈迈德·萨吉尔;刘琲贝;王宇飞 | 申请(专利权)人: | 华南理工大学;中新国际联合研究院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 刘巧霞 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 行人 检测 方法 神经网络 目标 | ||
本发明公开了一种实时行人检测方法,该方法的步骤主要包括:确定默认分辨率,读取视频帧,根据缩放因子确定分割块数,调整视频帧尺寸,分割视频帧,将分割后视频帧子块叠放并提取特征,预测候选行人框的坐标参数以及行人置信度分数,筛选出最终的行人框结果,根据当前帧行人尺寸调整缩放因子,继续处理下一帧直至完成全部检测任务。本发明公开了一种神经网络,包括7或8或9层卷积层。本发明还公开了一种目标检测层,该目标检测层实现行人目标框坐标预测和目标框置信度预测两部分功能。本发明通过缩放因子对视频帧进行自适应缩放,在保证检测精度及运算速度的情况下,尤其提高了对小尺寸行人目标的检测效果。
技术领域
本发明涉及深度学习视频处理技术领域,特别涉及一种基于深度卷积神经网络的实时行人检测方法及神经网络、目标检测层。
背景技术
目标检测是一种重要的计算机视觉技术,其中,行人检测算法在智能机器人、视频监控和自动驾驶等前沿热门领域具有广泛的应用价值,受到学术与产业界的重视。过去十多年间发明了不少行人检测方法,但还有众多实际应用问题亟待解决。行人检测在计算机视觉领域仍是一项极具挑战性的任务。
传统行人检测算法大多基于手工设计特征,如SIFT,SURF和HOG特征等。随着深度学习技术的发展,特别是在图像分析任务中效果显著的卷积神经网络(ConvolutionalNeural Network,CNN)发明以来,开始采用深度学习算法实现行人识别和检测。Cai等人在2016年欧洲计算机视觉会议(ECCV2016)发表论文《A unified multi-scale deepconvolutional neural network for fast object detection》,利用CNN中的不同卷积层匹配不同尺度的图像,对不同尺度下的检测任务进行联合端到端训练。相比传统行人检测算法,该算法可提高检测准确率,但该识别速度较慢,使用一片英伟达Titan型号GPU仅能达到15帧/秒的检测速度,难以满足实时性要求。Du等人在2017年IEEE冬季计算机视觉应用会议(WACV2017)发表论文《Fused DNN:A deep neural network fusion approach to fastand robust pedestrian detection》,利用多个并行CNN提高检测准确率,但由于网络参数过多,该方法检测速度较慢,使用一片英伟达TitanX型号GPU只能达到约3帧/秒的检测速度。Brazil等人在2017年国际计算机视觉会议(ICCV2017)发表论文《Illuminatingpedestrian via simultaneous detection and segmentation》,通过共享特征的检测和分割网络,较好地实现了人流中的行人检测任务。但由于网络结构复杂,要消耗大量存储空间,检测速度也难以满足实时要求。除了计算开销大、实时性较差外,上述几种方法对于离摄像机较远、尺寸较小的行人均会出现大量漏检,使其难以满足实际应用场景的检测要求。
在实际应用中,由于背景复杂度不一,行人外观不同(不同尺寸或服装风格),光线/天气条件各异,以及部分遮挡等问题,基于深度学习的行人检测方法往往需要应用复杂的神经网络才能达到检测准确率要求,其代价是增加了算法复杂度,降低了算法实时性。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种实时行人检测方法,此方法在保证检测准确率的前提下,通过自缩放技术实现针对多种尺寸行人目标的快速检测,提高了算法实时性。
本发明的目的通过以下的技术方案实现:一种实时行人检测方法,根据视频中行人的尺寸自动对视频帧进行分割,在单幅视频帧上进行单次迭代,输出行人目标框及行人置信度分数,实现了高效检测;包括如下步骤:
确定算法中网络接收视频的默认分辨率:Hd×Wd×3,其中Hd、Wd分别指图像的高度和宽度,3指图像包含的色彩通道数;
读取当前帧I,分辨率为H×W×3;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;中新国际联合研究院,未经华南理工大学;中新国际联合研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910095995.7/2.html,转载请声明来源钻瓜专利网。