[发明专利]一种基于改进YOLOv3的树上果实识别方法有效

专利信息
申请号: 202011293795.1 申请日: 2020-11-18
公开(公告)号: CN112329697B 公开(公告)日: 2022-04-12
发明(设计)人: 陆声链;刘晓宇;李帼;陈文康 申请(专利权)人: 广西师范大学
主分类号: G06V20/10 分类号: G06V20/10;G06V10/762;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 杨雪梅
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 yolov3 树上 果实 识别 方法
【权利要求书】:

1.一种基于改进YOLOv3的树上果实识别方法,其特征在于,包括如下步骤:

S1、图像的获取:用户使用数码相机或其他图像采集设备对结有果实的果树进行图像采集,图像采集时间包括果实生长早期、中期和成熟期的不同阶段,拍摄图像的时间点分布在早上、中午、下午不同时段,以便所拍摄的图像中,包括不同时间段的图像,最后将采集到的图像按照Pascal VOC数据集的格式将图片命名,同时创建名为Labeleds、PictureSets、ResultSets的三个文件夹;

S2、图像预处理:

S2-1、图像标记:在步骤S1采集到的图像中,运用图像标注工具LabelImg对图像中的果实进行标记,标注出果实的种类及在图像中的位置和品种名称;

S2-2、图像扩增:若步骤S1中用户采集到的图像少于2000张,则运用Augmentor图像数据增强库对图像进行扩增,扩增过程为,在Augmentor中选定图像的保存路径和标记信息XML文件路径,并指定扩增后的图像及XML文件输出路径后,选择所需的图像增强器如亮度、裁剪、高斯噪声增强器,再选择扩增数量以及扩增方式,扩增方式包括顺序、组合、随机对图像进行扩增,使得扩增后的图像不少于2000张;

S2-3、设置先验框参数:

S2-3-1、先复制步骤S2-2扩增后的标记数据集的Labeleds文件;

S2-3-2、使用kmean++算法,选择聚类个数和输入网络层图片大小,对Labeleds文件中的XML数据进行聚类得到每个类先验框的长宽;

S2-3-3、将得到的先验框的长宽与阈值相比较,观察先验框的长宽是否分布在各个阈值中,若观察先验框的长宽分布在各个阈值中,则进行S2-4,否则进行S2-3-4,其中四层先验框阈值分别为:1-3先验框长宽阈值8*8~30*30、4-6先验框长宽阈值30*30~104*104、7-9先验框长宽阈值104*104~208*208和10-12先验框长宽阈值208*208~416*416;

S2-3-4、在先验框的长宽参数比较集中时,不满足多尺度阈值要求时,使用ZOOM线性缩放算法,设置合理的ZOOM缩放算法的缩放倍数,确认缩放后先验框的长宽满足S2-3-3阈值要求,选定缩放后的先验框长宽参数的输出路径,将步骤S2-3-2得到的先验框的长宽参数保存到txt文件中;

S2-4:划分数据集:将扩增得到的图像和标记文件划分成训练集、测试集、验证集和训练验证集,训练集、测试集、验证集分别占50%、25%、25%,训练验证集为训练集与验证集的累加;

S3、设置网络模型参数:在YOLOv3网络模型的配置文件cfg中,根据计算机内存、显存的大小,用户所需的识别效果和训练速度,设置卷积神经网络输入图像的尺寸、识别种类的数量、迭代次数,以及需使用支持CUDA加速的显卡类型;

S3-1、当选择输入网络的图像尺寸为416*416,参数random为1,即开启多尺度训练,batch参数为64,迭代次数max_batches为10000,检测物体种类为2时,若用户选择使用CPU训练模型,至少需要4GB内存,若使用单GPU训练模型,至少需要6GB内存;

S3-2、当选择输入网络的图像尺寸为416*416,参数random为0,即关闭多尺度训练,batch参数为16,迭代次数max_batches为10000,检测物体种类为2时,若用户使用CPU训练模型,至少需要2GB内存;若使用单GPU训练模型,至少需要4GB内存;

S3-3、当选择输入网络的图像尺寸为608*608,参数random为1,即开启多尺度训练,batch参数为64,迭代次数max_batches为10000,检测物体种类为2时,若用户使用CPU训练模型,至少需要4GB内存;若使用单GPU训练模型,至少需要8GB内存;

S3-4、当选择输入网络的图像尺寸为608*608,参数random为0,即关闭多尺度训练,batch参数为16,迭代次数max_batches为10000,检测物体种类为2时,若用户选择使用CPU训练模型,至少需要3GB内存;若使用单GPU训练模型,至少需要6GB;

S4. 对原YOLOv3网络结构进行改进,得到改进后的YOLOv3网络结构,改进步骤如下:

S4-1:在原YOLOv3网络结构中,将第11层和第109层拼接,将浅层和高层的特征图连接起来,将浅层的信息传递到深层,拼接后输出的特征图大小为104*104*3*(5+class_num),其中class_num为步骤S2-1中标注数据时果实品种的数量,默认为1,即只包括一种果实,在原YOLOv3网络结构基础上,增加一个对小目标敏感、大小为104*104的特征检测层,使网络结构更深,使改进后的卷积神经网络学习更深层的信息,以解决深层特征图容易忽略小目标的问题;

S4-2、新增的104*104特征检测层与原YOLOv3网络结构中模块大小为52*52*128的特征层进行上采样相连接,用于后续的特征拼接和防止过拟合;

S4-3、新增的104*104特征检测层与原YOLOv3网络结构中特征图尺寸为104*104*256、步长为1的卷积层连接;

S4-4、在新增的每一层中,加入1*1卷积层进行通道降维,使最后输出的YOLO层的大小为104*104*3*(5+class_num);

S5、训练网络模型:对改进后的YOLOv3网络配置文件cfg进行参数设置,将设置好参数的cfg文件及改进后YOLOv3网络结构放入配置好环境的计算机中,运用训练集和验证集中标记好的图片进行训练,训练过程中,将测试集中划分好的图片放入计算机中进行测试,得到每一个阶段训练的效果,并设置过程监控-map参数实时观察训练的mAP值,训练结束后保存训练好的网络模型权重weights;

S6、运用训练完成的网络模型权重进行识别:在计算机上准备好待检测的果实图像,通过命令行输入测试命令,命令内容包括网络模型配置文件cfg、训练完成得到的果实识别模型权重weights和待识别的果实图片名,运行后加载网络模型配置文件cfg和网络模型权重,最终计算机显示识别果实的结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011293795.1/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top