[发明专利]一种基于模型强化学习的智能体路径规划方法及系统在审

申请号：	202310637164.4	申请日：	2023-05-31
公开（公告）号：	CN116643499A	公开（公告）日：	2023-08-25
发明（设计）人：	兰旭光;刘亚新;王浩宇;陈星宇;田智强;齐欧;刘海进	申请（专利权）人：	西安交通大学;灵动科技（北京）有限公司
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	贺小停
地址：	710049 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模型强化学习智能路径规划方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于模型强化学习的智能体路径规划方法，其特征在于，包括：

获取智能体与环境交互的轨迹图像；

将轨迹图像中隐状态作为抽象状态，依照样本的回报大小划分正负样本，正负样本之间通过对比学习，使得正样本投影到同一隐状态，负样本投影到不同隐状态，得到投影后的样本；

将抽象学习和模型学习相结合构建带约束的智能体路径规划优化目标模型；再基于KKT条件通过引入超参数构建联合损失函数；将投影后的样本输入联合损失函数中进行求解得到智能体路径规划；

输出所述智能体路径规划用于智能体根据所述智能体路径规划作出控制决策。

2.根据权利要求1所述的基于模型强化学习的智能体路径规划方法，其特征在于，所述获取智能体与环境交互的轨迹图像，包括：

给定一个局部可观测马尔可夫决策过程，包括离散的时间t∈N，t时刻的高维观测值o_t∈O，动作a_t∈A，奖励值r_t∈R以及隐状态z_t∈Z；

智能体与环境交互分别得到两段轨迹图像，分别是

和

分别表示第j个轨迹的时刻i的隐状态；

同一时刻的嵌入向量和隐状态组合为正样本；不同时刻的嵌入向量和隐状态为负样本；

定义一个集合φ_o＝{(o_i，o_j)|o_i，o_j∈O，o_i～p(o_j)，o_j～p(o_j)，其中，是将观测值映射到隐状态空间的编码器，p(o_t)＝p(o_t|o＜t，a＜t)表示根据t时刻之前的观测值和动作得到的t时刻的观测值的分布，O是观测值空间，φ₀表示观测值空间O中映射到同一个隐状态的观测值对的组合的全体集合，任意(o_i，o_j)∈φ_o，其对应的隐状态z_i与z_j相同；给定一个t时刻的观测值o_t～p(o_t)及对应的隐状态z_t∈Z，定义一个集合ψ(z_t)＝{o_j|(o_i，o_j)∈φ_O}表示所有映射到z_t的观测值的集合。