[发明专利]一种基于模型强化学习的智能体路径规划方法及系统在审
申请号: | 202310637164.4 | 申请日: | 2023-05-31 |
公开(公告)号: | CN116643499A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 兰旭光;刘亚新;王浩宇;陈星宇;田智强;齐欧;刘海进 | 申请(专利权)人: | 西安交通大学;灵动科技(北京)有限公司 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 贺小停 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 强化 学习 智能 路径 规划 方法 系统 | ||
1.一种基于模型强化学习的智能体路径规划方法,其特征在于,包括:
获取智能体与环境交互的轨迹图像;
将轨迹图像中隐状态作为抽象状态,依照样本的回报大小划分正负样本,正负样本之间通过对比学习,使得正样本投影到同一隐状态,负样本投影到不同隐状态,得到投影后的样本;
将抽象学习和模型学习相结合构建带约束的智能体路径规划优化目标模型;再基于KKT条件通过引入超参数构建联合损失函数;将投影后的样本输入联合损失函数中进行求解得到智能体路径规划;
输出所述智能体路径规划用于智能体根据所述智能体路径规划作出控制决策。
2.根据权利要求1所述的基于模型强化学习的智能体路径规划方法,其特征在于,所述获取智能体与环境交互的轨迹图像,包括:
给定一个局部可观测马尔可夫决策过程,包括离散的时间t∈N,t时刻的高维观测值ot∈O,动作at∈A,奖励值rt∈R以及隐状态zt∈Z;
智能体与环境交互分别得到两段轨迹图像,分别是
和
分别表示第j个轨迹的时刻i的隐状态;
同一时刻的嵌入向量和隐状态组合为正样本;不同时刻的嵌入向量和隐状态为负样本;
定义一个集合φo={(oi,oj)|oi,oj∈O,oi~p(oj),oj~p(oj),其中,是将观测值映射到隐状态空间的编码器,p(ot)=p(ot|o<t,a<t)表示根据t时刻之前的观测值和动作得到的t时刻的观测值的分布,O是观测值空间,φ0表示观测值空间O中映射到同一个隐状态的观测值对的组合的全体集合,任意(oi,oj)∈φo,其对应的隐状态zi与zj相同;给定一个t时刻的观测值ot~p(ot)及对应的隐状态zt∈Z,定义一个集合ψ(zt)={oj|(oi,oj)∈φO}表示所有映射到zt的观测值的集合。
3.根据权利要求1所述的基于模型强化学习的智能体路径规划方法,其特征在于,所述将轨迹图像中隐状态作为抽象状态,依照样本的回报大小划分正负样本,包括:
对于任意(oi,oj)∈φo,采取信息噪声对比估计学习方法使得符合条件的隐状态一致性;从抽象的角度得到如式所示的优化目标:
式中,ψ(zt)表示所有映射到zt的观测值的集合;fθ(oj,zt)是一个非负函数,其作用是衡量隐状态zt和观测值oj的相似度;为常量。
4.根据权利要求1所述的基于模型强化学习的智能体路径规划方法,其特征在于,所述正负样本之间通过对比学习,使得正样本投影到同一隐状态,负样本投影到不同隐状态,得到投影后的样本,包括:
最大化任一个隐状态和其从抽象视角对应的多个观测值的概率之和,最小化该隐状态和其他观测值的概率之和,增加一个辅助任务作为对模型的约束,得到辅助任务如下式所示:
其中,∈≥0表示状态抽象对于DSCL模型学习的约束大小,∈越小表示约束程度越强,∈最小为0表示完全区分正负样本,代表双线性模型的非负函数;et是观测值ot的嵌入向量,Wθ是要学习的参数矩阵;为常量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学;灵动科技(北京)有限公司,未经西安交通大学;灵动科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310637164.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:像素电路及其驱动方法
- 下一篇:封装结构及封装方法