[发明专利]一种基于YOLOv3算法的果园行人检测方法有效

申请号：	201910128312.3	申请日：	2019-02-21
公开（公告）号：	CN109934121B	公开（公告）日：	2023-06-16
发明（设计）人：	景亮;吴边;沈跃;刘慧;张礼帅;张健;罗晨晖	申请（专利权）人：	江苏大学
主分类号：	G06V40/10	分类号：	G06V40/10;G06V10/762;G06N3/0464
代理公司：	暂无信息	代理人：	暂无信息
地址：	212013 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 yolov3 算法果园行人检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进的YOLOv3算法的果园行人检测方法，其特征在于，包括以下步骤：

步骤1：采集果园环境中行人图像；

采集行人在深度摄像头下拍摄的各种姿势和所处果园位置的图像，其中，所述拍摄的行人包括躺、坐、蹲、行走、站立、跑步以及距离摄像头不同距离的行人和不同遮挡情况的行人；

步骤2：对步骤1中采集的图像进行预处理，并构建标准的行人检测数据集；

步骤3：将步骤2中处理后制作的训练集放入卷积特征器特征提取行人特征，通过K-means聚类方法产生anchor box数来生成预测的行人边界框，并使用FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性；

步骤4：使用软化非极大值抑制Soft-NMS算法来改进非极大值抑制NMS算法，根据预测的边界框与实际边界框的交并比IOU进行Soft-NMS操作，对预测的边界框的置信度小于给定的阈值进行边界框抑制，输出最终的预测边界框和类别；

步骤3具体如下：

3.1：将步骤2中获得的训练集进行图像尺寸调整，并设置IOU阈值以及置信度阈值；

3.2：再将输入的图像通过经过修改的Darknet-53网络结构提取特征；

Darknet-53网络结构由53个卷积层和Residual结构组成，卷积核大小为3×3和1×1两种,每个卷积层均通过批归一化Batch Normalization和Leaky relu激活函数操作，使用组归一化Group Normalization替换批归一化来改善归一化操作；

3.3：接着通过FPN网络对行人进行多尺度融合预测，将第82层输出的19×19特征图、第94层输出的38×38特征图和第106层输出的76×76特征图分别划分为19×19个网格、38×38个网格和76×76个网格；使用K-means聚类方法对训练集的边界框做聚类，得到合适的anchor box，并在每个网格上产生3个anchor box数来生成预测的目标边界框以及使用二元交叉熵损失函数来预测类别；

聚类使用的公式为

d(box,centroid)＝1-IOU(box,centroid)

其中，box为先验框，centroid为聚类中心，IOU(box,centroid)为两个区域的交并比，当d(box centroid),小于等于度量阈值时，确定anchor box的宽高大小；

预测边界框的公式为

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，c_x和c_y为划分的单元格与图像左上角的横纵坐标的距离，p_w、p_h分别为预测前的边界框宽度和高度，t_x和t_y为预测中心相对参数，σ(t_x)和σ(t_y)分别是预测框中心偏离其所在单元格左上角的水平方向和垂直方向的距离，b_x和b_y分别为预测的边界框中心的横、纵坐标，b_w和b_h分别为预测的边界框的宽度和高度；

预测边界框的置信度公式为

其中，Pr(object)为0或1，为0表示图像中没有目标，为1表示有目标；表示预测的边界框和实际的边界框之间的交并比，类别预测使用的二元交叉熵损失函数binarycross-entropy loss公式为

其中，N是训练图片的总数量；y_i取值为0或1，y_i取值为1表示第i张输入的图片包含行人，y_i取值为0则表示第i张输入的图片不包含行人；p_i值为对第i张输入的图片是否包含行人的预测的概率，p_i值在0至1之间；loss为对每个训练图片的对数损失的平均值，loss越小越好；

使用组归一化Group Normalization替代所有卷积层上已有的批归一化；

组归一化Group Normalization公式如下：

y_i＝γx_i+β

其中，x是由层计算的特征，i＝(i_N,i_C,i_H,i_W)，i是以(N,C,H,W)顺序索引特征的矢量，其中N是batch轴，C是通道轴，H和W分别是空间高度和宽度轴，ε为一个小常数，u_i为平均值，σ_i为标准差，S_i为计算的平均值和标准差的像素集合，m是该集合的大小，y_i是每个通道的线性变换，γ和β是可训练的尺度缩放值和移位值，i_C和k_C分别表示沿C轴的i和沿k轴的子索引；G是组的数量，它是预定义的超参数；C/G是每组的通道数，表示当每组通道沿C轴按顺序存储时，索引i和k在同一组通道中，组归一化Group Normalization沿(H，W)轴和沿着一组C/G通道计算μ和σ，同一组中的像素通过相同的μ和σ一起归一化，组归一化Group Normalization还学习每个通道的γ和β。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏大学，未经江苏大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910128312.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于空间密度和聚类的分步点云噪声去除方法
下一篇：一种基于深度学习的遥感影像船舶检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于YOLOv3算法的果园行人检测方法有效

专利文献下载