[发明专利]一种基于图像渲染的果实生长形态辨识方法在审
申请号: | 202210580143.9 | 申请日: | 2022-05-26 |
公开(公告)号: | CN114842347A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 吕继东;许浩;韩颖;徐黎明;卢文斌;顾玉宛;戎海龙;邹凌;马正华 | 申请(专利权)人: | 常州大学 |
主分类号: | G06V20/10 | 分类号: | G06V20/10;G06K9/62;G06N3/04;G06N3/08;G06V10/764;G06V10/80;G06V10/82 |
代理公司: | 常州市英诺创信专利代理事务所(普通合伙) 32258 | 代理人: | 张秋月 |
地址: | 213164 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 渲染 果实 生长 形态 辨识 方法 | ||
本发明涉及卷积神经网络技术领域,尤其涉及一种基于图像渲染的果实生长形态辨识方法,包括采集果实图像;图像数据增强;构建主干网络,并通过自顶向下和自底向上的双向融合网络对主干网络的网络层进行特征融合,从而对图像进行特征提取;构建RPN网络;使用点的表征来进行图像分割,首先选择少量真值点进行预测;其次,对选中的每个点提取逐点特征表示,最后构建一个MLP预测分类;将测试集图像送入训练好的网络模型后进行前向传播。本发明基于深度学习搭建特征提取网络并基于图像渲染的思想来实现果实生长形态的精确辨识,使得采摘机器人能够自动辨识果实生长形态,为进一步对其选用相应的采摘机制奠定基础。
技术领域
本发明涉及卷积神经网络技术领域,尤其涉及一种基于图像渲染的果实生长形态辨识方法。
背景技术
水果的种植规模与产量在全球范围内逐年增加,但是目前水果果实的采摘工作大多采用人工作业的方式,而手工劳动既费时又费力,在传统果业的生产周期中可能会产生成本高、质量差等棘手的矛盾,因此开发高智能的采摘机器人相关技术具有重要的现实意义和广阔的应用前景。视觉系统作为采摘机器人的重要组成部分,其识别精度和速度对采摘机器人的工作效率有着极大影响。尽管历年的研究者针对果蔬视觉系统展开研究,但迄今为止少有采摘机器人达到过商业成熟度,主要原因是实际的果园环境中,检测目标果实易受复杂背景、果实姿态和颜色等因素影响。
目前深度学习方法在果实检测任务中实现了较高的检测率和较快的检测速度,但是大多数关于水果检测的研究都将所有目标水果确定为一类,包括部分可见但是被枝干遮挡或者是重叠的水果。然而目前的现行采摘机器人样机很难采摘被枝干遮挡或者重叠的果蔬,如果采摘机器人强行摘下被枝干遮挡或者重叠的果实,可能会造成末端执行器的损坏以及果实的损伤,从而造成不必要的经济损失。为了避免这种情况的出现,采摘机器人搭载的视觉辨识系统首先需要辨识出不同生长形态的果实,然后机器人才能选用相应方法来完成不同生长形态果实的顺利采摘。为了获取精细化的不同生长形态的果实区域,本发明基于图像渲染的实例分割方法来实现果实生长形态的精确辨识。
发明内容
针对现有算法的不足:本发明基于Mask RCNN搭建特征提取网络并基于图像渲染的思想来实现果实生长形态的精确辨识,使得采摘机器人能够自动辨识果实生长形态,为进一步对其选用相应的采摘机制奠定基础。
本发明所采用的技术方案是:一种基于图像渲染的果实生长形态辨识方法包括以下步骤:
S1、图像采集:使用单反拍摄若干果园不同形态的果实图像,随后使用Labelme软件对剩余图像进行标注,果实的生长形态主要包含四大类,分别为:无枝茎遮挡单个果实、枝茎遮挡单个果实、无枝茎遮挡重叠果实和枝茎遮挡重叠果实;
S2、图像增强:对标注好的图像进行数据增强以扩充数据集,数据增强方法包括饱和度调整、对比度调整、亮度调整、锐度调整以及清晰度调整,并随机将图像按6:2:2的比例划分为训练集、验证集以及测试集;
S3、图像特征提取:该部分任务主要构建了两部分网络来完成,首先基于MaskRCNN构建主干网络,主干网络由49个卷积层和1个最大池化下采样层组成,首先对输入图像经过1个7×7大小,步长为2,填充为3的卷积操作,随后再通过1个最大池化模块进行下采样得到预处理后的特征图,同时将剩余的48个卷积层划分为四个处理阶段,每阶段里面分别有3、4、6和3组卷积模块,每组里面又包含3个卷积层,分别是1个1×1卷积、1个3×3卷积和1个1×1卷积,最终一共有48个卷积层来进行特征提取,随后在主干网络的输出添加改进后的空间金字塔池化层(SPPF),来将任意大小的特征图转换为固定大小的特征向量,从而可以提取不同尺寸的空间特征信息,提升模型对于空间布局和物体变形的鲁棒性;
进一步的,SPPF首先将特征图经过1×1卷积调整通道数得到卷积特征图x,随后将x送入3个并列的池化核大小为5、步长为1、填充为2的最大池化层处理,得到的3个输出与原先的x进行通道融合作为最后的输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州大学,未经常州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210580143.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序