[发明专利]基于改进特征金字塔和边界损失的道路场景行人检测方法在审
申请号: | 202210295880.4 | 申请日: | 2022-03-24 |
公开(公告)号: | CN114782983A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 彭树生;杨举魁;吴礼;张靖桢 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/762;G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 岑丹 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 特征 金字塔 边界 损失 道路 场景 行人 检测 方法 | ||
本发明公开了一种基于改进特征金字塔和边界损失的道路场景行人检测方法,可用于对包含行人的视频或者图像进行检测,主要解决现有检测技术中聚类结果差异性较大和无法训练优化的问题,实现步骤为:创建训练集和测试集;采用k‑means++算法对数据集进行聚类分析,筛选出标注数据中的无效信息,对有效信息进行聚类操作,得到精度更高的锚框尺寸;在原YOLOv3算法中特征金字塔结构的基础上引入PANet结构,并提出一种ResBlock结构代替原有的残差结构,提高模型对小目标物体的检测精度;采用GIoU作为边界框损失函数,解决IoU相等时产生的差异性问题,从而得到准确率更高的行人检测模型。
技术领域
本发明属于目标检测技术领域,具体涉及一种基于改进特征金字塔和边界损失的道路场景行人检测方法。
背景技术
目标检测是在图像和视频中扫描搜寻某个目标,如果发现目标就可探究其具体位置的方法。目标检测具体是在计算机或是其他硬件设备上实现的,目标检测的发展主要有两个阶段,早期的传统目标检测使用人工设计的方法提取特征并进行分类,随着算法研究的深入及硬件平台的计算能力提高,基于CNN深度学习的目标检测在现阶段的研究和应用中发展较快。
在2016年,Ross B.Girshick提出了算法Faster R-CNN,其在网络结构上作出较多调整,聚合了特征提取、边界回归任务和目标分类等步骤,有效提高了网络性能。Faster R-CNN放弃了遍历备选区域的方法,首次提出了一种名叫RPN的网络模块。在选择候选区域的过程中,首先使用3x3的滑动窗口对输入特征图进行卷积,并设定了9种尺寸的锚框来预测,将输出的低维特征传到全连接层,进行区域分类和边界框回归。由于采用了双阶段网络,Faster R-CNN算法比起之前的检测网络更加精准,对于多尺度、小目标问题能够更好的解决,但其检测速度依旧无法满足实际应用的要求,无法落实到实际应用中。
2018年,Redmon J推出了Yolov3算法。该算法将Darknet-53作为主干网络,其借鉴了Resnet的设计思想,引入了shortcut的网络结构,提高检测精度的同时大幅度减少检测所用的时间,是目前学术界最为流行的目标检测算法,广泛应用各种场景下的行人检测。但由于道路场景中行人目标一直存在目标遮挡、尺寸较小和分布密集等特点,原始 YOLOv3算法对其检测容易存在误检漏检等问题,对于目标密集场景下的定位准确度不高,对有着特殊宽高比的目标检测效果差。
发明内容
本发明的目的在于提出了一种基于改进特征金字塔和边界损失的道路场景行人检测方法,旨在解决现有检测方法检测精度低的问题。
实现本发明目的的技术方案为:一种基于改进特征金字塔和边界损失的道路场景行人检测方法,包括如下步骤:
S1:获取道路场景的行人视频,创建训练集和测试集;
S2:采用k-means++算法对数据集进行聚类分析,得到候选框尺寸;
S3:对输入图像进行预处理;
S4:将预处理后的图像输入改进的YOLOv3检测模型进行训练,得到行人检测模型。
优选地,采用k-means++算法对数据集进行聚类分析前筛选训练集中的有效坐标数据,具体方法为:
将训练集对应的xml文件中记录的坐标数据写入到长度为lenth的数组data_box中,起始坐标数据从data_box中保存的第一组数据开始算起,初始化数组的索引值index=0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210295880.4/2.html,转载请声明来源钻瓜专利网。