[发明专利]一种分层强化学习的智能体控制方法有效
申请号: | 201911360634.7 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111142522B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 曾杰;罗喜伶;金晨;李云波 | 申请(专利权)人: | 北京航空航天大学杭州创新研究院 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G05D1/12 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分层 强化 学习 智能 控制 方法 | ||
1.一种分层强化学习的智能体控制方法,其特征在于包括如下步骤:
S01:将智能体导航任务分成追寻目标点和避障两个子任务;利用DDPG算法训练智能体在第一仿真环境下追寻目标点的能力,得到经训练的目标网络;利用DDPG算法训练智能体在第二仿真环境下的避障能力,得到经训练的避障网络;
所述的目标网络的输入为目标点相对于智能体坐标系的直线距离和倾斜角度,网络输出为智能体的角速度和线速度;
目标网络的奖励函数如下:
式中,rgoal代表到达目标点的奖励;d代表智能体到达目标点的阈值,即当两者距离小于d时表示到达了目标点;p代表当前位置,g代表目标点位置;dr-t(t)为智能体在t时刻相距目标点的距离;ar-t(t)为智能体在t时刻相距目标点的角度;
所述避障网络的奖励函数如下所示:
式中,robstacle代表碰到障碍物的惩罚;p代表当前位置,o代表障碍物位置,d为判断是否碰到障碍物的阈值,即当两者距离小于d时表示碰到了障碍物;lin_cmd,ang_cmd分别为智能体线速度和角速度;m(t)为t时刻智能体与障碍物最小状态数据;
避障网络训练方法与目标网络训练方法一致;所述的目标网络或避障网络的训练过程具体为:
1)初始化actor/critic神经网络参数;
2)将online策略网络和值网络的参数分别拷贝给对应的target网络参数;
3)初始化记忆回放库;
4)在每一个回合中,actor根据行动策略选择动作,执行后,返回奖励r和下一个状态St+1,将状态转换四元数储存至记忆回放库中,作为online策略网络和值网络的数据集;
5)记忆回放库储存一定数量后,从中随机采样N个样本进行训练;
6)先后计算online值网络和策略网络的梯度并进行更新;
7)迭代至一定回合数后,对target值网络和目标策略网络进行soft-update;
S02:训练融合网络,融合网络的输入为感知环境状态变化的特征量和目标点的位置数据,输出为融合系数lamda;通过输出的lamda来得到最终动作,然后通过与环境交换得到的奖励reward来逐步修正融合网络;
所述融合网络的训练过程为:将目标点信息和环境状态特征信息作为融合网络的输入,在经过预训练的避障网络和目标网络输出进行动作选择,执行后将状态转换四元数存储至新的记忆回放库,作为融合网络的数据集;
S03:将目标点信息和环境状态特征信息作为融合网络的输入,对经过预训练的避障网络和目标网络输出进行动作选择,并根据融合系数lamda来执行最终动作。
2.根据权利要求1所述的分层强化学习的智能体控制方法,其特征在于,所述的第一仿真环境由外边界和目标点组成。
3.根据权利要求1所述的分层强化学习的智能体控制方法,其特征在于,所述的第二仿真环境由外边界和障碍物组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学杭州创新研究院,未经北京航空航天大学杭州创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911360634.7/1.html,转载请声明来源钻瓜专利网。