[发明专利]基于免疫深度强化学习的移动机器人自主导航方法有效
申请号: | 202110545286.1 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113406957B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 陈光柱;严成良;李杨 | 申请(专利权)人: | 成都理工大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610059 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 免疫 深度 强化 学习 移动 机器人 自主 导航 方法 | ||
1.基于免疫深度强化学习的移动机器人自主导航方法,其特征在于,包括如下步骤:
步骤一:对移动机器人进行运动学建模分析,并在已知运动参数的基础上,提出朝向角奖赏因子、线速度奖赏因子、安全性能奖赏因子、障碍物动态奖赏因子和目标点动态奖赏因子,并将这五个奖赏因子引入到深度确定性策略梯度算法的奖赏函数中;
朝向角奖赏因子用于判定移动机器人是否朝着目标点运动,定义为:
其中,rorientation表示朝向角奖赏因子,θorientation表示移动机器人朝向角的大小;
线速度奖赏因子用于判定移动机器人的运动速度,定义为:
rvelocity=vcurrent,
其中,rvelocity表示线速度奖赏因子,vcurrent表示移动机器人线速度的大小;
安全性能奖赏因子用于判定移动机器人的运动轨迹是否安全,定义为:
rsafe=dobstacle-rs,
其中,rsafe表示安全性能奖赏因子,dobstacle表示移动机器人几何中心与障碍物的距离,rs表示移动机器人的安全半径;
障碍物动态奖赏因子rcollide用来衡量移动机器人是否与障碍物发生碰撞的情况,其值可根据具体情况动态设定;
目标点动态奖赏因子rgoal用来衡量移动机器人是否成功到达目标点的情况,其值可根据具体情况动态设定;
深度确定性策略梯度算法的奖赏函数表示为:
Re=σ(αrorientation+β(rsafe+rvelocity))+rcollide+rgoal,
其中,σ为rorientation、rsafe和rvelocity在每一次完整导航任务中的缩放因子,其值根据实验效果动态调整,以避免rcollide和rgoal在一些特定环境下,对奖赏函数的值影响过大,α表示rorientation的影响系数、β表示rsafe和rvelocity的影响系数;
步骤二:在步骤一的基础上,考虑到朝向角奖赏因子、安全性能奖赏因子和线速度奖赏因子对导航策略的影响程度不同,为了使这三个奖赏因子的值更合理,引入信息熵的相关理论,对各奖赏因子的影响系数进行调整,以使得奖赏函数能适应各种不同的环境,达到增强移动机器人泛化性的目的;
各奖赏因子的影响系数推导过程具体描述如下:
H(X)表示信息熵,X表示某个未知事件,pi表示X事件发生的概率,则:
将移动机器人上次碰撞或者上次到达目标点到当前碰撞或者当前到达目标点看作是一个回合,则H(orientation)表示在一定时间步内每个到达目标点的回合中rorientation的信息熵、H(sv)表示在一定时间步内每个到达目标点的回合中rsafe与rvelocity之和的信息熵,则:
其中,rorientation为正值的概率,记作为负值的概率,记作rsafe+rvelocity为正值的概率,记作为负值的概率,记作
由以上信息,可确定α与β的取值大小:
β=1-α;
步骤三:在步骤一与步骤二的基础上,考虑到DDPG的“软更新”和“经验回放”机制会使得DDPG算法的训练时间变长,且其对优秀经验样本的利用效率不高的问题,进一步运用免疫算法对DDPG经验缓存池中经验组的奖赏值进行优化,以达到加快算法学习训练速度的目的;
免疫算法的优化过程具体描述如下:
M表示从经验缓存池中抽取经验样本的组数,raverage表示被抽取的M组经验样本的平均奖赏值,可作为分类标准,将奖赏值高于平均奖赏值的经验组放入Good组、低于平均奖赏值的经验组放入Bad组,则:
M/2表示从Good组中抽取经验样本的组数,ri表示第i组的奖赏值,rga表示被抽取的M/2组经验样本的平均奖赏值,可作为分类标准,将达到评判标准的经验样本加入到免疫优化池中,没有达到评判标准的经验样本进行免疫操作,则:
将Good组中每组经验样本中的奖赏值看作待优化初始种群,种群的大小为M/2,rg表示第g组的奖赏值,把rga看作是Good组中每组经验样本中的奖赏值的评判标准,将没有达到评判标准的经验样本进行免疫操作;
免疫克隆操作:将Good组中没有达到评判标准的经验样本进行克隆,记作克隆组;
免疫变异操作:根据奖赏函数Re,将克隆组中的奖赏值rg分别进行解析,得出rorientation、rsafe和rvelocity的大小,如果rorientation为负值,对ag中的角速度进行变异操作;rvelocity太小,则对ag中的线速度进行变异操作;rsafe为负值,就对角速度和线速度同时进行变异操作;其中,变异操作符合标准的正态分布,使μ=0、σ=1,则:
ag~N(μ,σ2),
克隆抑制操作:根据变异后的ag′重新计算得到rg′,组成新的经验组(sg,ag′,rg′,sg+1),计算并对比被克隆组和克隆组的奖赏值,保留奖赏值最高的经验组;
种群刷新操作:在克隆抑制操作之后的经验组中,用奖赏值较高的经验样本替换初始种群中奖赏值较低的经验样本,得到新种群;接下来,根据评判标准,判断新种群是被放入免疫优化池还是继续进行免疫操作;最后,将Good组中的经验样本替换为免疫优化池中的经验样本,以达到高效利用样本数据,进一步增加算法学习训练效率的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都理工大学,未经成都理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110545286.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电镐用安全防护装置
- 下一篇:一种自伸展可折叠座椅