[发明专利]一种基于YOLOv3算法的果园行人检测方法有效
申请号: | 201910128312.3 | 申请日: | 2019-02-21 |
公开(公告)号: | CN109934121B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 景亮;吴边;沈跃;刘慧;张礼帅;张健;罗晨晖 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/762;G06N3/0464 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 yolov3 算法 果园 行人 检测 方法 | ||
1.一种基于改进的YOLOv3算法的果园行人检测方法,其特征在于,包括以下步骤:
步骤1:采集果园环境中行人图像;
采集行人在深度摄像头下拍摄的各种姿势和所处果园位置的图像,其中,所述拍摄的行人包括躺、坐、蹲、行走、站立、跑步以及距离摄像头不同距离的行人和不同遮挡情况的行人;
步骤2:对步骤1中采集的图像进行预处理,并构建标准的行人检测数据集;
步骤3:将步骤2中处理后制作的训练集放入卷积特征器特征提取行人特征,通过K-means聚类方法产生anchor box数来生成预测的行人边界框,并使用FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性;
步骤4:使用软化非极大值抑制Soft-NMS算法来改进非极大值抑制NMS算法,根据预测的边界框与实际边界框的交并比IOU进行Soft-NMS操作,对预测的边界框的置信度小于给定的阈值进行边界框抑制,输出最终的预测边界框和类别;
步骤3具体如下:
3.1:将步骤2中获得的训练集进行图像尺寸调整,并设置IOU阈值以及置信度阈值;
3.2:再将输入的图像通过经过修改的Darknet-53网络结构提取特征;
Darknet-53网络结构由53个卷积层和Residual结构组成,卷积核大小为3×3和1×1两种,每个卷积层均通过批归一化Batch Normalization和Leaky relu激活函数操作,使用组归一化Group Normalization替换批归一化来改善归一化操作;
3.3:接着通过FPN网络对行人进行多尺度融合预测,将第82层输出的19×19特征图、第94层输出的38×38特征图和第106层输出的76×76特征图分别划分为19×19个网格、38×38个网格和76×76个网格;使用K-means聚类方法对训练集的边界框做聚类,得到合适的anchor box,并在每个网格上产生3个anchor box数来生成预测的目标边界框以及使用二元交叉熵损失函数来预测类别;
聚类使用的公式为
d(box,centroid)=1-IOU(box,centroid)
其中,box为先验框,centroid为聚类中心,IOU(box,centroid)为两个区域的交并比,当d(box centroid),小于等于度量阈值时,确定anchor box的宽高大小;
预测边界框的公式为
bx=σ(tx)+cx
by=σ(ty)+cy
其中,cx和cy为划分的单元格与图像左上角的横纵坐标的距离,pw、ph分别为预测前的边界框宽度和高度,tx和ty为预测中心相对参数,σ(tx)和σ(ty)分别是预测框中心偏离其所在单元格左上角的水平方向和垂直方向的距离,bx和by分别为预测的边界框中心的横、纵坐标,bw和bh分别为预测的边界框的宽度和高度;
预测边界框的置信度公式为
其中,Pr(object)为0或1,为0表示图像中没有目标,为1表示有目标;表示预测的边界框和实际的边界框之间的交并比,类别预测使用的二元交叉熵损失函数binarycross-entropy loss公式为
其中,N是训练图片的总数量;yi取值为0或1,yi取值为1表示第i张输入的图片包含行人,yi取值为0则表示第i张输入的图片不包含行人;pi值为对第i张输入的图片是否包含行人的预测的概率,pi值在0至1之间;loss为对每个训练图片的对数损失的平均值,loss越小越好;
使用组归一化Group Normalization替代所有卷积层上已有的批归一化;
组归一化Group Normalization公式如下:
yi=γxi+β
其中,x是由层计算的特征,i=(iN,iC,iH,iW),i是以(N,C,H,W)顺序索引特征的矢量,其中N是batch轴,C是通道轴,H和W分别是空间高度和宽度轴,ε为一个小常数,ui为平均值,σi为标准差,Si为计算的平均值和标准差的像素集合,m是该集合的大小,yi是每个通道的线性变换,γ和β是可训练的尺度缩放值和移位值,iC和kC分别表示沿C轴的i和沿k轴的子索引;G是组的数量,它是预定义的超参数;C/G是每组的通道数,表示当每组通道沿C轴按顺序存储时,索引i和k在同一组通道中,组归一化Group Normalization沿(H,W)轴和沿着一组C/G通道计算μ和σ,同一组中的像素通过相同的μ和σ一起归一化,组归一化Group Normalization还学习每个通道的γ和β。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910128312.3/1.html,转载请声明来源钻瓜专利网。