[发明专利]基于DQN的多月球车采样固定目标自适应规划方法有效
申请号: | 202210602846.7 | 申请日: | 2022-05-30 |
公开(公告)号: | CN115202339B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 高艾;路思遥;徐瑞;李朝玉;朱圣英 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dqn 月球 采样 固定 目标 自适应 规划 方法 | ||
1.基于DQN的多月球车采样固定目标自适应规划方法,其特征在于:包括如下步骤,
步骤一、根据多月球车采样任务规划中多月球车系统状态与动作间的约束和转移关系,确定待规划和训练的任务模型;
步骤一实现方法为,
定义多月球车任务模型为一个五元组:O,S,A,P,E,其中O是系统的集合,即多月球车任务模型中的所有系统;S是状态的集合,表示多月球车任务模型中各系统的所有状态;A是动作的集合,表示多月球车任务模型中各系统的所有动作;P是动作前提条件的集合,表示多月球车任务模型中各系统的各动作的所有前提条件;E是动作的影响或效果的集合,表示多月球车任务模型中各系统的所有动作的影响;
步骤二、使用矩阵和向量形式表达多月球车采样任务规划使用的状态空间中不同系统的当前状态,进而表达多月球车状态K,并形成多月球车状态空间;
步骤二实现方法为,
确定系统O的个数m,根据每个系统Oi的状态数ki,确定状态矩阵的列维度尺寸,即每个系统状态数的最大值n;进一步,选择第i个系统Oi,此系统的真实状态向量为ηi,αi为状态存在性值,如果状态当前是存在的,则取1,反之则取0;即
在此基础上,构建所有系统的填充状态向量ρ,并进一步构建多月球车的状态矩阵K;对于第i个系统Oi,ρi为ηi的0填充向量,用于保持后续构建矩阵K的维度有效性,即
K=[ρ1,ρ2,…,ρm]T (5)
步骤三、在状态矩阵所属的多月球车状态空间中,采用状态空间状态组表达方法,调整和优化步骤一确定的任务模型表达方式,使多月球车O中每个系统Oi的真实状态向量ηi均表达为ki个状态组ζj的组合,其中j为状态组的长度;状态组定义为一组互斥状态,同一状态下仅有一个被选中的状态,其长度j根据系统的状态属性确定;
步骤三实现方法为,
在公式(5)中状态矩阵所属的多月球车状态空间中,采用状态空间状态随机生成方法,调整和优化模型表达方式,使月球车O中每个系统Oi的真实状态向量ηi均表达为ki个状态组ζj的组合,其中j为状态组的长度;状态组定义为一组互斥状态,同一状态下仅有一个被选中的状态,其长度j根据系统的状态属性确定,并非固定值,即
步骤四、采用状态空间状态随机生成方法,根据随机选取规则为步骤三中定义的状态组中每个状态随机赋值,生成随机的每个多月球车系统的状态组;
步骤四实现方法为,
采用状态空间状态随机生成方法,根据随机选取规则生成状态组ζj,并由表示状态存在与否的s表达,即
n=randint(1,j) (8)
其中函数randint(a,b)表示在[a,b]区间中选择一个整数值,进而根据公式(7)得到一个生成状态组ζj;
步骤五、重复步骤四生成状态组中的随机状态,组合得到步骤三定义的状态组ζ,进而得到步骤三中的状态向量η,再根据步骤二得到多月球车的状态矩阵K;
步骤五实现方法为,
经过步骤四得到一个随机的状态s,重复执行步骤四j次,根据公式(7)得到状态组ζj,进一步重复上述方法ki次,根据公式(6)得到第i个系统的真实状态向量ηi;根据公式(1)至公式(4),获得每个系统Oi的填充状态向量ρi,根据公式(5)得到一个多月球车状态矩阵K,作为其初始状态;
步骤六、重复步骤四、步骤五n次,得到一组多月球车的状态矩阵,作为后续步骤七DQN训练的初始状态的集合,所述初始状态的集合为初始状态备选的矩阵列表;步骤四采用状态空间状态随机生成方法随机生成对应不同状态的多月球车的状态矩阵,以增强多月球车采样任务规划对于各种不同初始状态的适应性;
步骤七、以多月球车采样任务模型作为训练环境,构建基于DQN的多月球车采样任务训练体系,设定多月球车采样任务模型中不同类型动作的奖励值,构建多月球车深度强化学习的训练环境,以采样任务目标状态为训练的末状态或目标,在训练过程中从步骤六得到的初始状态备选的矩阵列表,随机选取元素作为训练的初始状态,并在训练中统计每轮的奖励值和;
步骤八、多次重复步骤七,直至预设时间段奖励值和变化较小或达到收敛阈值,即基于DQN实现多月球车采样固定目标自适应规划,不仅能够提高多月球车采样固定目标自适应规划对于不同状态的适应性,还能提高自适应规划效率。
2.如权利要求1所述的基于DQN的多月球车采样固定目标自适应规划方法,其特征在于:步骤六实现方法为,
重复步骤四和步骤五n次,得到一组长度为n的初始状态备选的矩阵列表LK=[K1,K2,…,Kn],作为步骤七DQN训练的初始状态集合,增强DQN训练得到的智能体对于多月球车采样任务规划过程中各种不同初始状态的适应性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210602846.7/1.html,转载请声明来源钻瓜专利网。