[发明专利]一种基于YOLO v5的水果识别方法有效
申请号: | 202210362789.X | 申请日: | 2022-04-07 |
公开(公告)号: | CN114663769B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 郭健 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V20/10 | 分类号: | G06V20/10;G06V10/762;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 邬赵丹 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 yolo v5 水果 识别 方法 | ||
1.一种基于YOLO v5的水果识别方法,其特征在于:具体包括如下步骤:
步骤一、水果图像收集:利用相机对超市水果进行视频拍摄;
步骤二、视频采样图片:对拍摄的视频进行间隔采样,获得图片;
步骤三、图像标注以及数据集划分:对获得的图片标注图中物体边界框位置和类别,然后将数据集划分为训练集、验证集、测试集;
步骤四、图像数据增强:对训练集图像进行预处理,旋转、裁剪,增加训练集图片数量;
步骤五、对真实框聚类分析设计先验框:首先对所有真实框进行划分,严格按照大中小面积划分,其中大目标定义为像素面积大于96*96,中目标定义为像素面积大于32*32并小于96*96,小目标定义为像素面积小于32*32,再分别对大中小真实框进行K-means聚类,得到大中小三个先验框的大小;
K-means聚类包括以下步骤:在数据集中确定聚类数量;随机设定每个聚类的质心向量;为每个数据分配距离最近质心,选用二范数,其计算方法如下:
其中(x,y)代表质心的向量,(xi,yi)代表非质心向量,i为整数表示聚类数量;
将该数据分配到所属质心的聚类,直到全部分配完毕;更新质心向量,质心向量值为该聚类的均值;如果质心向量发生变化则重复步骤三、步骤四,否则输出质心;
步骤六、构建模型:YOLO v5网络包括特征提取部分、特征融合部分和预测部分,对其特征提取部分和特征融合部分进行优化;
YOLO v5的特征提取部分包括Focus模块、CBL模块、由CBL模块和残差模块组成的CSP模块、以及SPP模块;Focus模块用于对图像进行切片融合,CBL模块由2D卷积、批量归一化、Leaky relu组成,CSP由CBL和多个残差块组成,SPP模块由多个多尺度最大池化组成;将SKNet模块嵌入到Focus模块中,形成SKFocus;并将SKNet与残差模块相结合设计新的SK残差模块;
SKFocus为:对输入图片X,分别使用卷积核大小为3*3卷积操作,卷积核为5*5的空洞卷积,得到特征图F1、F2;将两个特征按元素相加得到特征F;F在经过全局平均池化得到通道统计信息,其计算公式为:
其中,H为特征F的高,W为特征F的宽,C为特征F的通道数;
SC在经过FC+Sigmoid对特征图F1、F2分别生成对应权重向量A,B;然后分别按通道方向做softmax,其公式为:
其中c代表通道数,aC和bC分别与特征F1、F2加权相乘,在与原来输入图片X进行按通道拼接;
SK残差模块为,对输入Y经过两个CBL后输出特征U,该特征U分别使用卷积核大小为3*3卷积操作,卷积核为5*5的空洞卷积,得到特征图U1、U2;将两个特征按元素相加得到特征U3;U3在经过全局平均池化得到通道统计信息,在经过FC+Sigmoid分别生成权重a2,b2,其中a2+b2=1;将a2和b2分别与特征U1、U2加权相乘按元素相加,然后与原来输入Y按元素相加;
其中空洞卷积为,在标准卷积的基础上增加参数dilated rate,这个参数就是在卷积核中填充dilation rate-1个0,在具体实现时,对输入的特征间隔dilation rate-1采样;
特征融合模块采用了FPN+PAN的结构对特征进行融合得到19*19,38*38,76*76的特征图,同时本方法将特征融合模块中卷积核大于等于5*5的卷积操作替换为dilated rate=2的空洞卷积;
将上述得到的特征图输入预测模块进行预测;其中19*19特征图用于大目标的预测,38*38特征图用于中等目标的预测,76*76特征图用于小目标的预测;
步骤七、训练模型并调参优化模型:在训练之前,使用步骤五中得到的先验框输入到模型检测头对目标的位置和类别进行训练,同时使用迁移学习,将已经在大数据集上训练的YOLO v5参数加载到此模型,然后使用经步骤一~步骤四处理的数据集进行训练;每次迭代都计算损失函数,并更新参数值,使损失函数的值最小,直到模型收敛,同时为防止过拟合,迭代次数不超过300次;
步骤八、在完成模型训练后,保存模型权重参数,设置格式为.pt格式;对保存到模型权重文件重新加载,并用这个权重文件检测测试集的图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210362789.X/1.html,转载请声明来源钻瓜专利网。