[发明专利]一种基于改进YOLO v3模型的行人检测方法在审
申请号: | 201911257993.X | 申请日: | 2019-12-10 |
公开(公告)号: | CN111046787A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 陈健;黄德天 | 申请(专利权)人: | 华侨大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 泉州市文华专利代理有限公司 35205 | 代理人: | 陈雪莹 |
地址: | 362000 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 yolo v3 模型 行人 检测 方法 | ||
1.一种基于改进YOLO v3模型的行人检测方法,其特征在于:包括:
步骤1、选取训练样本;
步骤2、对样本进行K-means值聚类计算,获得新的anchors值,将新的anchors值替换原始YOLO v3模型中的数据集参数;
步骤3、引入inception模块,并将inception模块进行裁剪优化,得到改进后的YOLO v3模型;
步骤4、使用改进后的YOLO v3模型对行人进行检测,得到检测结果。
2.根据权利要求1所述的一种基于改进YOLO v3模型的行人检测方法,其特征在于:所述步骤1进一步具体为:从公开数据集pascal voc2007和pascal voc2012数据集中分别提取其中的行人图像,以训练集:测试集为2:1的比例选取训练样本。
3.根据权利要求1所述的一种基于改进YOLO v3模型的行人检测方法,其特征在于:所述步骤2进一步具体为:
采用非线性映射θ,将样本xi(i=1,2,…,l)映射到高维度空间G中,即样本为θ(x1),θ(x2),...,θ(xi);
在高维度空间进行K-means聚类操作,将函数最优化
其中,样本均值mk可由下式得出:
在核空间中,计算两个特征点的核距离
其中,N是核函数。
将聚类得到的所有样本子集进行合并,则样本子集的并集中包含了K个目标类别,分别计算其均值
其中,ni表示该类别的数据量,xi表示第i类的均值。
计算任意两个类均值间的距离
I=|xi-xj|2 (5)
若两个目标类别均值之间的距离小于预先设定阈值,则将这两个目标类别合并为一个类;再继续通过式(5)计算类均值距离。经过对样本子集的并集进行合并,得到最终的聚类结果;
使用最终生成的聚类结果计算符合本模型使用的anchors值,将新的anchors值替换原始YOLO v3模型中的数据集参数。
4.根据权利要求1所述的一种基于改进YOLO v3模型的行人检测方法,其特征在于:所述步骤3进一步具体为:引入inception模块,然后对inception模块进行裁剪优化,裁剪后的inception模块主要由3*3卷积层和5*5卷积层组合而成,同时对于5*5的卷积层,连续使用两个3*3卷积层对其进行替代,用一个YOLO v3模型中的route层将两路不同感受野的输出结果进行合并,组合成一个输出层传送到下一层卷积网络中,以供进一步的特征提取操作;将裁剪后的inception模块放入至原YOLO v3模型中得到改进后的YOLO v3模型。
5.根据权利要求1所述的一种基于改进YOLO v3模型的行人检测方法,其特征在于:所述步骤4进一步具体为:
步骤4a:将所要检测的图像进行分块;在输入模型时,先自适应调整图像的尺寸,将图像调整为正方形,然后使用N*N大小的网格进行分块;
步骤4b:当分块的网格存在某目标的中心点时,该网格负责对此目标进行分类判断和位置检测,执行如下操作:
当某个目标的中心点落入被划分出的N*N个网格中,该网格将生成B个预测框对该目标进行检测,即每个网格有B个由anchors值预测生成的边界框以及表明该网格是否包含目标的置信度CS,以综合反映基于当前模型的边界框内存在目标的可能性和预测目标位置的准确性
其中,Pr(Object)表示该网格内是否包含目标的中心点,如果包含,则为1;反之为0,是交并比,用于表示网格预测生成的边界框与物体真实的边界框面积的交并比;
每个网格生成B个预测的边界框对网格中的目标进行检测,其中每个边界预测框包含5个参数[x,y,w,h,confidence],[x,y]代表目标中心点在网格内的坐标,[w,h]代表预测边界框的宽和高,而confidence则表示预测边界框和该物体真实边界框的交并比,每个网格对应一个预测是否包含某类目标情况的预测值Ci,其表达式为,
Ci=Pr(Classi|Object) (7)
步骤4c:由步骤4b得到的每个网格含有5个参数,用向量yi表示,具体表示如下:
yi=[bx,by,bw,bh,c] (8)
其中,(bx,by)代表目标中心点的坐标,(bw,bh)代表网络对目标预测生成的边界框的宽与高,c代表该预测框总的置信度得分;
步骤4d:完成对N*N个网格的预测后,将所有网格的参数进行整理汇总,输出整幅图像的检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911257993.X/1.html,转载请声明来源钻瓜专利网。