[发明专利]一种面向农业采摘的高效识别控制强化学习算法在审
申请号: | 202111308953.0 | 申请日: | 2021-11-05 |
公开(公告)号: | CN114020945A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 吴贺俊;游永强;王海涛 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/583;G06F17/16;G06F30/27;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 农业 采摘 高效 识别 控制 强化 学习 算法 | ||
本发明提供一种农业采摘中基于离散对比特征的强化学习算法,该算法采用离散对比特征学习来获得状态特征输入,通过数据增强获得锚点、正样本、负样本,再使得锚点特征表示与正样本特征表示尽可能接近,与负样本特征表示尽可能不同,随后通过离散化来获得良好的输入特征表示。此方法无需高成本的标签数据,也不需要可能会造成训练不稳定的复杂模型,实现了一种样本效率高效、训练过程稳定迅速、端到端的深度强化学习算法。
技术领域
本发明涉及智能农业领域,更具体地,涉及一种农业采摘中基于离散对比特征的强化学习算法。
背景技术
强化学习是机器学习的重要领域,主要研究智能体如何在和环境交互的过程中学习到最优控制决策。现有的强化学习算法需要较好的环境状态特征输入或者与环境进行大量的数据交互才能达到一个良好的学习效果,这极大地限制了强化学习算法在某些难以获得较好环境状态特征输入或者交互数据较为昂贵的实际问题中的应用。农业领域的环境相比于工业领域的环境更为复杂。具体到农业采摘领域,复杂的环境包括不平整的道路、不规则的作物生长情况、光照强度与附近作物的阴影等,这导致农业领域很难获得较好的环境状态特征输入或进行大量的数据交互,从而导致在智能体优化中具有优异表现的强化学习算法很难获得应用。
目前的研究通过辅助任务来帮助强化学习算法在具有复杂环境的领域中获得应用,但这些辅助任务具有一定的局限性或需要较大的代价。结合了辅助任务的强化学习算法可以大致分为两部分:基于模型的强化学习算法和基于无模型的强化学习算法。基于模型的强化学习算法的辅助任务会通过神经网络等方式来近似一个环境模型,该模型可以预测状态转移、给出回报。但是,基于模型的强化学习算法往往包含很多复杂的组成部分,如隐变量模型、回报模型等,这些复杂的组成成分会使得训练过程变得不稳定或者需要大量富有经验的专家的人工辅助。基于无模型的强化学习算法的辅助任务主要在于提升智能体感知输入特征表示,提升方法包括有监督学习和自监督学习。有监督学习可以有效地提升输入特征表示,但代价是需要大量带有标签的数据来获得一个预训练网络。自监督学习能避免注释大型数据集带来的成本,例如类似自编码方式这种基于图片重建的辅助任务,此类方法能很好地获得一个较输入更低维度的特征,但获得的特征可能对具体的下游任务不具有显著性。
发明内容
本发明提供一种农业采摘中基于离散对比特征的强化学习算法,该算法无需高成本的标签数据,也不需要可能会造成训练不稳定的复杂模型,实现了一种样本效率高效、训练过程稳定迅速、端到端的深度强化学习算法。
为了达到上述技术效果,本发明的技术方案如下:
一种农业采摘中基于离散对比特征的强化学习算法,包括以下步骤:
S1:对采集的图片进行数据增强,获得查询(Query)和键(Key);
S2:这些数据通过卷积神经网络CNN编码成查询特征F(Ou)和键特征G(Ov);
S3:通过离散对比学习获得紧密的离散特征输入,其中键Key的卷积神经网络训练时不进行更新,通过查询Query的卷积神经网络的参数来进行更新,最后采用柔性致动/评价Soft Actor-Critic的策略进行评估回传。
进一步地,步骤S1中,读取n个样本的转移元组其中含有观察输入O,使用随机数据增强方法通过观测输入O产生查询Ou和键Ov;步骤S2中,使用编码器CNN变成编码F(Ou)和编码G(Ov),再通过符号函数变成U=sign(F(Ou))和V=sign(G(Ov))。
进一步地,步骤S3中,用步骤S2得到的数据进行离散对比学习:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111308953.0/2.html,转载请声明来源钻瓜专利网。