[发明专利]一种基于模型强化学习的智能体路径规划方法及系统在审
申请号: | 202310637164.4 | 申请日: | 2023-05-31 |
公开(公告)号: | CN116643499A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 兰旭光;刘亚新;王浩宇;陈星宇;田智强;齐欧;刘海进 | 申请(专利权)人: | 西安交通大学;灵动科技(北京)有限公司 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 贺小停 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 强化 学习 智能 路径 规划 方法 系统 | ||
本发明公开一种基于模型强化学习的智能体路径规划方法及系统,属于机器控制技术领域,包括:获取智能体与环境交互的轨迹图像;将轨迹图像中隐状态作为抽象状态,依照样本的回报大小划分正负样本,正负样本之间通过对比学习,使得正样本投影到同一隐状态,负样本投影到不同隐状态,得到投影后的样本;将抽象学习和模型学习相结合构建带约束的智能体路径规划优化目标模型;再基于KKT条件通过引入超参数构建联合损失函数;将投影后的样本输入联合损失函数中进行求解得到智能体路径规划;输出所述智能体路径规划用于智能体根据作出控制决策。该方法在机器人操作任务和自动驾驶任务等复杂任务表明,本发明在收敛后的性能上有着优异的性能。
技术领域
本发明属于机器控制技术领域,具体涉及一种基于模型强化学习的智能体路径规划方法及系统。
背景技术
自动驾驶一直是人工智能的重要应用领域,在人工智能技术飞速发展的今天,如何将最新的机器学习技术应用到自动驾驶模型的训练当中,已经成为人工智能研究的前沿问题。随着人们对AI的要求从感知型逐渐深化到决策型,AI在自动驾驶任务中的应用能力也成为了衡量决策型AI技术发展的标准之一。强化学习目前存在的主要问题之一是采样效率的问题,为了训练出一个较好的策略,需要智能体与环境进行大量的交互、试错,然后用采集到的数据进行大量的训练,导致采样效率、训练效率比较低。
强化学习按照是否需要学习环境模型可以分为两类,一类是无模型的强化学习,一种是基于模型的强化学习。无模型的强化学习直接通过与环境交互采样来学习强化学习中的策略和值函数,无模型的强化学习算法只关注在给定状态下采取什么行动,放弃了构建环境的模型信息,一般来说采样效率较为低下。另一类是基于模型的强化学习算法,这一算法的基本思想是学习环境模型,预测采取动作以后会产生何种影响来帮助智能体进行决策,一般来说这类算法可以显著提高采样效率。基于模型的强化学习算法缺点是在一些复杂任务中如果仅从采集的样本中学习模型,学习到的模型与真实模型之间会存在偏差,这一偏差会导致智能体在真实环境中测试的时候性能较差。目前强化学习的一个研究领域是以图象作为输入的决策,图像作为输入的情况下状态空间维度达上万维,仅依靠无模型的强化学习对计算机的算力要求极高,甚至无法收敛,在这类任务中基于模型的强化学习算法有着较大的优势。
基于模型的强化学习(Model-Based Reinforcement Learning,MBRL)是机器学习中的一个重要的研究方向,可以用于解决机器人、自动驾驶等领域的决策问题。MBRL的主要思想是通过无监督学习对环境进行建模,依靠学习到的环境模型来学习策略。MBRL的主要流程是学习环境模型,然后再由环境模型预测的样本来学习策略。以图像作为强化学习的观测值,即依靠图像进行决策,会使得传统强化学习的训练效率下降。
目前的方法在用基于模型的强化学习解决类似决策问题的时候,通过对比学习或重构将高维的观测值压缩到低维隐空间中进行表征学习,重构对于无噪声背景的观测值的决策任务有着较好的表现。对于有噪声的观测值问题,为了避免在像素层次上重建观测值,通常采用对比学习的方法来学习。从信息论的角度,目前的方法仅按照无监督学习的方式训练模型,没有考虑到样本额外的强化学习结构信息。尤其是针对机器人操作任务和自动驾驶任务等复杂任务的路径规划及控制问题,现有技术中的算法复杂,训练难度大,控制精度不能满足实际需要。
发明内容
本发明的目的在于克服上述不足,提供一种基于模型强化学习的智能体路径规划方法及系统,该方法在机器人操作任务和自动驾驶任务等复杂任务表明,本发明在收敛后的性能上有着优异的性能。
为了达到上述目的,本发明采用如下技术方案:
一种基于模型强化学习的智能体路径规划方法,包括:
获取智能体与环境交互的轨迹图像;智能体为自动驾驶车辆或智能机器人;
将轨迹图像中隐状态作为抽象状态,依照样本的回报大小划分正负样本,正负样本之间通过对比学习,使得正样本投影到同一隐状态,负样本投影到不同隐状态,得到投影后的样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学;灵动科技(北京)有限公司,未经西安交通大学;灵动科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310637164.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:像素电路及其驱动方法
- 下一篇:封装结构及封装方法