[发明专利]基于免疫深度强化学习的移动机器人自主导航方法有效

申请号：	202110545286.1	申请日：	2021-05-19
公开（公告）号：	CN113406957B	公开（公告）日：	2022-07-08
发明（设计）人：	陈光柱;严成良;李杨	申请（专利权）人：	成都理工大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	610059 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于免疫深度强化学习移动机器人自主导航方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于免疫深度强化学习的移动机器人自主导航方法，其特征在于，包括如下步骤：

步骤一：对移动机器人进行运动学建模分析，并在已知运动参数的基础上，提出朝向角奖赏因子、线速度奖赏因子、安全性能奖赏因子、障碍物动态奖赏因子和目标点动态奖赏因子，并将这五个奖赏因子引入到深度确定性策略梯度算法的奖赏函数中；

朝向角奖赏因子用于判定移动机器人是否朝着目标点运动，定义为：

其中，r_orientation表示朝向角奖赏因子，θ_orientation表示移动机器人朝向角的大小；

线速度奖赏因子用于判定移动机器人的运动速度，定义为：

r_velocity＝v_current，

其中，r_velocity表示线速度奖赏因子，v_current表示移动机器人线速度的大小；

安全性能奖赏因子用于判定移动机器人的运动轨迹是否安全，定义为：

r_safe＝d_obstacle-r_s，

其中，r_safe表示安全性能奖赏因子，d_obstacle表示移动机器人几何中心与障碍物的距离，r_s表示移动机器人的安全半径；

障碍物动态奖赏因子r_collide用来衡量移动机器人是否与障碍物发生碰撞的情况，其值可根据具体情况动态设定；

目标点动态奖赏因子r_goal用来衡量移动机器人是否成功到达目标点的情况，其值可根据具体情况动态设定；

深度确定性策略梯度算法的奖赏函数表示为：

Re＝σ(αr_orientation+β(r_safe+r_velocity))+r_collide+r_goal，

其中，σ为r_orientation、r_safe和r_velocity在每一次完整导航任务中的缩放因子，其值根据实验效果动态调整，以避免r_collide和r_goal在一些特定环境下，对奖赏函数的值影响过大，α表示r_orientation的影响系数、β表示r_safe和r_velocity的影响系数；

步骤二：在步骤一的基础上，考虑到朝向角奖赏因子、安全性能奖赏因子和线速度奖赏因子对导航策略的影响程度不同，为了使这三个奖赏因子的值更合理，引入信息熵的相关理论，对各奖赏因子的影响系数进行调整，以使得奖赏函数能适应各种不同的环境，达到增强移动机器人泛化性的目的；

各奖赏因子的影响系数推导过程具体描述如下：

H(X)表示信息熵，X表示某个未知事件，p_i表示X事件发生的概率，则：

将移动机器人上次碰撞或者上次到达目标点到当前碰撞或者当前到达目标点看作是一个回合，则H(orientation)表示在一定时间步内每个到达目标点的回合中r_orientation的信息熵、H(sv)表示在一定时间步内每个到达目标点的回合中r_safe与r_velocity之和的信息熵，则：

其中，r_orientation为正值的概率，记作为负值的概率，记作r_safe+r_velocity为正值的概率，记作为负值的概率，记作

由以上信息，可确定α与β的取值大小：

β＝1-α；

步骤三：在步骤一与步骤二的基础上，考虑到DDPG的“软更新”和“经验回放”机制会使得DDPG算法的训练时间变长，且其对优秀经验样本的利用效率不高的问题，进一步运用免疫算法对DDPG经验缓存池中经验组的奖赏值进行优化，以达到加快算法学习训练速度的目的；

免疫算法的优化过程具体描述如下：

M表示从经验缓存池中抽取经验样本的组数，r_average表示被抽取的M组经验样本的平均奖赏值，可作为分类标准，将奖赏值高于平均奖赏值的经验组放入Good组、低于平均奖赏值的经验组放入Bad组，则：

M/2表示从Good组中抽取经验样本的组数，r_i表示第i组的奖赏值，r_ga表示被抽取的M/2组经验样本的平均奖赏值，可作为分类标准，将达到评判标准的经验样本加入到免疫优化池中，没有达到评判标准的经验样本进行免疫操作，则：

将Good组中每组经验样本中的奖赏值看作待优化初始种群，种群的大小为M/2，r_g表示第g组的奖赏值，把r_ga看作是Good组中每组经验样本中的奖赏值的评判标准，将没有达到评判标准的经验样本进行免疫操作；

免疫克隆操作：将Good组中没有达到评判标准的经验样本进行克隆，记作克隆组；

免疫变异操作：根据奖赏函数Re，将克隆组中的奖赏值r_g分别进行解析，得出r_orientation、r_safe和r_velocity的大小，如果r_orientation为负值，对a_g中的角速度进行变异操作；r_velocity太小，则对a_g中的线速度进行变异操作；r_safe为负值，就对角速度和线速度同时进行变异操作；其中，变异操作符合标准的正态分布，使μ＝0、σ＝1，则：

a_g～N(μ,σ²)，

克隆抑制操作：根据变异后的a_g′重新计算得到r_g′，组成新的经验组(s_g,a_g′,r_g′,s_g+1)，计算并对比被克隆组和克隆组的奖赏值，保留奖赏值最高的经验组；

种群刷新操作：在克隆抑制操作之后的经验组中，用奖赏值较高的经验样本替换初始种群中奖赏值较低的经验样本，得到新种群；接下来，根据评判标准，判断新种群是被放入免疫优化池还是继续进行免疫操作；最后，将Good组中的经验样本替换为免疫优化池中的经验样本，以达到高效利用样本数据，进一步增加算法学习训练效率的目的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都理工大学，未经成都理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110545286.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于免疫深度强化学习的移动机器人自主导航方法有效

专利文献下载