[发明专利]基于最小二乘截断时域差分学习的路径规划决策优化方法在审
申请号: | 202111682698.6 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114518751A | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 方强;兰奕星;徐昕;任君凯;张一川;周星 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 胡君;邹大坚 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最小 截断 时域 学习 路径 规划 决策 优化 方法 | ||
1.一种基于最小二乘截断时域差分学习的路径规划决策优化方法,其特征在于,步骤包括:
S1.基函数学习:使用第一策略收集智能体与环境交互过程中的状态、动作以及奖励,构成样本数据集,所述第一策略为初始策略或容许策略;根据所述样本数据集采用预训练的方式学习特征表示的基函数;
S2.评价器学习:评价器使用执行器生成的第二策略收集智能体与环境交互过程中状态、动作的样本数据,利用所述基函数获得样本特征,并利用投影均方贝尔曼误差作为截断指标,以控制在策略评价的不同阶段采用最小二乘时域差分或线性时域差分进行参数更新,获取近似最优的策略评价器,所述投影贝尔曼误差根据所述样本数据集计算得到;
S3.执行器学习:使用执行器生成的策略收集与环境交互样本,并利用所述基函数获得样本特征,使用步骤S2中评价器作为策略执行器的评价函数,得到控制策略输出;
S4.路径规划:按照步骤S3得到的控制策略控制智能体进行路径规划。
2.根据权利要求1所述的基于最小二乘截断时域差分学习的路径规划决策优化方法,其特征在于,所述步骤S2中,按照下式计算所述投影贝尔曼均方误差以作为所述截断指标:
式中,MSPBE(w)表示为评价器的参数w所对应的投影贝尔曼均方误差,表示期望计算公式,δ表示时域差分误差,为特征矩阵,其中每个向量对应于状态si的具体特征φ(si),i=1,2……,m,表示转置算符,Vw是以w为参数的近似状态值函数,Π是将任意值函数投影到表示空间上的投影算子,T为贝尔曼算子,D为权值对角矩阵。
3.根据权利要求1所述的基于最小二乘截断时域差分学习的路径规划决策优化方法,其特征在于,所述步骤S2中,利用投影均方贝尔曼误差作为截断指标按照以下方式截断:如果当前次计算得到的投影贝尔曼均方误差相较上一次计算得到的投影贝尔曼均方误差的上升幅度超过切换条件设置的预设判别阈值时,采用最小二乘时域差分方法进行评价器参数更新,否则采用线性时域差分方法进行评价器参数更新。
4.根据权利要求3所述的基于最小二乘截断时域差分学习的路径规划决策优化方法,其特征在于,所述线性时域差分方法中评价器参数具体按照下式更新:
式中,wt+1为评价器更新后的参数,wt为评价器更新前参数,α为学习率,γ为奖励折扣因子,Φ为特征矩阵。
5.根据权利要求3所述的基于最小二乘截断时域差分学习的路径规划决策优化方法,其特征在于,所述最小二乘时域差分算法中评价器参数具体按照下式更新:
式中w为计算的评价器参数,表示期望求解,矩阵A表示为b表示为Φt为t时刻特征表示矩阵,γ为奖励折扣因子,rt+1为t+1时刻的奖励。
6.根据权利要求1~5中任意一项所述的基于最小二乘截断时域差分学习的路径规划决策优化方法,其特征在于,所述步骤S3中,执行器更新时使用重要性采样系数作为策略梯度优化权重系数,所述重要性采样系数表示为:
其中,ρ为重要性采样系数,πθ(a∣o)为当前策略输出的动作概率,πθ′(a∣o)表示旧策略输出的动作概率;
并使用梯度裁剪限制更新步长,具体为:
式中,∈为裁剪参数,表示估计的优势函数。
使用所述重要性采样系数与梯度裁剪后得到的执行器参数的优化函数具体为:
其中,θ为执行器参数。
7.根据权利要求1~5中任意一项所述的基于最小二乘截断时域差分学习的路径规划决策优化方法,其特征在于,所述步骤S1中具体通过采样一批数据,利用基于基函数预训练特征表示算法,使用正向模型预测任务、逆向模型预测任务、奖励回报预测任务以及图像重构任务作为无监督辅助任务对高维状态观测进行编码获得低维度特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111682698.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:人体重识别方法、人体重识别装置、计算机设备及介质
- 下一篇:智能矫治器