[发明专利]一种基于深度强化学习的绿篱修剪机器人智能协同控制方法有效
申请号: | 202210248923.3 | 申请日: | 2022-03-14 |
公开(公告)号: | CN114667852B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 蒙艳玫;李科;缪祥烜;韦锦;韩冰;武豪 | 申请(专利权)人: | 广西大学 |
主分类号: | A01G3/04 | 分类号: | A01G3/04 |
代理公司: | 广西汇佳知识产权代理事务所(普通合伙) 45125 | 代理人: | 李秋琦 |
地址: | 530004 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 绿篱 修剪 机器人 智能 协同 控制 方法 | ||
1.一种基于深度强化学习的绿篱修剪机器人智能协同控制方法,其特征在于:
所述绿篱修剪机器人包括移动底盘和固定在移动底盘上的修剪机械臂,在所述绿篱修剪机器人上安装有视觉检测模块;所述视觉检测模块包括安装在所述修剪机械臂的末端的绿篱横截面检测相机、安装在所述修剪机械臂的基座的绿篱高度与距离检测相机、安装在所述移动底盘的前侧车道线检测相机;
所述绿篱修剪机器人智能协同控制方法,包括以下步骤:
步骤一,建立绿篱修剪机器人马尔科夫决策MDP深度强化学习模型;
步骤二,搭建深度神经网络框架;
步骤三,设计改进PPO算法的策略网络目标函数与值函数网络目标函数;
步骤四,根据最大化策略网络目标奖励函数与最小化值函数网络目标函数均方误差原则,采用改进的PPO算法训练深度神经网络;
步骤五,采用改进自适应学习率的Adam自适应梯度算法优化目标函数,经过重复更新迭代,得到绿篱修剪机器人训练模型的最优策略,通过输入最新状态数据,即可预测输出最优动作,输出移动底盘与修剪机械臂的控制指令;
其中,步骤五所述的Adam自适应梯度算法的优化器中的学习率表示为:
式中,α为初始步长,β1,β2∈[0,1)为矩估计指数衰减速率,∈为数值稳定的小常数,取10-8,mt,vt分别表示有偏差的一阶矩估计和有偏差的二阶矩估计,由目标函数梯度计算而来,Down_bdy_a和Up_bdy_a分别表示学习率的下界与上界,表示为:
式中,n为当前训练周期数,N为预设训练总周期数,在优化目标函数过程中,学习率的下界设置为策略网络目标函数开始上升时的学习速率值或值函数网络开始下降时的学习速率值;学习率的上界设置为策略网络目标函数开始下降时的学习速率值或值函数网络开始上升时的学习速率值;通过将学习率自适应截断在指定区间内,在训练前期保持学习率的上界不变,不断提升学习率的下界,在训练后期保持学习率的下界不变,不断降低学习率的下界,即可保证在训练前期得到一个相对较大的学习率使目标函数跳出局部最优解,在训练后期使得学习率单调减小而保证目标函数单调收敛而不发散;
通过所述优化器,分别对策略网络与值函数网络目标函数进行优化,更新网络参数,其更新过程表示为:
θ′ =θ+Δα
通过采用改进自适应学习率的Adam自适应梯度算法优化目标函数,经过重复更新迭代,得到绿篱修剪机器人训练模型的最优策略,通过输入最新状态数据,即可预测输出最优动作,输出移动底盘与修剪机械臂的控制指令。
2.按照权利要求1所述的绿篱修剪机器人智能协同控制方法,其特征在于:
在步骤一所建立的绿篱修剪机器人马尔科夫决策MDP深度强化学习模型中,马尔科夫决策MDP过程由一个五元组(S,A,P,R,γ)来描述,其中S表示状态集,A表示动作集,P表示状态转移概率,取值为0到1,R为奖励函数,γ为奖励折扣因子,取值为0到1,用于计算智能体与环境交互过程得到的累计奖励;所述智能体为绿篱修剪机器人的车-臂协同控制模块,所述环境包括绿篱修剪机器人、绿篱和车道线;绿篱修剪机器人的策略模型接受环境当前时刻的状态St,选择并实施动作At,然后根据环境模型以概率P(St+1|St,At)进入新的状态St+1,并获得奖励Rt+1,策略模型再接受状态St+1和Rt+1,继续生成并执行绿篱修剪机器人的控制指令,过程中根据最大化获得奖励不断对策略模型进行优化调整,直到满足一定条件,智能体与环境交互结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210248923.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种招投标评审监管方法及系统
- 下一篇:一种毫米波雷达变权重平滑角超分辨方法