[发明专利]基于最小二乘截断时域差分学习的路径规划决策优化方法在审
申请号: | 202111682698.6 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114518751A | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 方强;兰奕星;徐昕;任君凯;张一川;周星 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 胡君;邹大坚 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于最小二乘截断时域差分学习的路径规划决策优化方法,步骤包括:S1.使用第一策略收集智能体与环境交互样本,并学习特征表示的基函数;S2.评价器使用执行器生成的第二策略收集智能体与环境交互样本,利用基函数获得样本特征,并利用投影均方贝尔曼误差作为截断指标,以控制采用最小二乘时域差分或线性时域差分进行参数更新,获取近似最优的策略评价器;S3.使用执行器生成的策略收集与环境交互样本,并利用基函数获得样本特征,使用步骤S2中评价器作为策略执行器的评价函数,得到控制策略输出;S4.按照得到的控制策略控制智能体进行路径规划。本发明具有实现方法简单、规划决策效率以及准确性高等优点。 | ||
搜索关键词: | 基于 最小 截断 时域 学习 路径 规划 决策 优化 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202111682698.6/,转载请声明来源钻瓜专利网。
- 上一篇:人体重识别方法、人体重识别装置、计算机设备及介质
- 下一篇:智能矫治器