[发明专利]基于时序差分更新经验回放缓存的路径规划方法及系统有效
申请号: | 202010115628.1 | 申请日: | 2020-02-25 |
公开(公告)号: | CN111352419B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 李沂滨;张天泽;贾磊;宋艳;王代超;高辉;胡晓平 | 申请(专利权)人: | 山东大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 266237 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 更新 经验 回放 缓存 路径 规划 方法 系统 | ||
本发明提供了基于时序差分更新经验回放缓存的路径规划方法,步骤包括:当前状态特征向量作为输入数据;建立DQN模型,DQN模型包括当前Q网络和目标Q网络;将输入数据输入到DQN模型形成输出数据和奖励信号;将输入数据、输出数据和奖励信号记为经验数据,存入经验回放缓存;当经验回放缓存的容量到达设定值时,将新的经验数据替换经验回放缓存中TD误差最小的经验数据,并实时更新经验回放缓存;解决了强化学习样本利用效率问题及经验池占用缓存空间过大问题,使得车辆路径规划效率提高,所需缓存空间大幅降低。
技术领域
本发明涉及一种路径规划方法及系统,具体涉及一种基于时序差分的更新经验回放缓存的路径规划方法及系统。
背景技术
机器学习方法通常被分为三类:监督学习,无监督学习和强化学习。其中,属于行为主义人工智能研究范围的强化学习(Reinforcement Learning,RL)是近些年热点研究方向之一,被普遍期望为通往通用人工智能的重要途径之一。强化学习通过构建智能体,让其在与环境的频繁交互中,根据从环境返回的奖励信号不断学习,最终得到一个能够解决问题的最优控制策略,整个状态转移过程通常被描述为一个马尔科夫过程。在RL中,构建智能体的方法被分为两种类型:无模型RL和基于模型的RL。Q学习是无模型RL方法中的经典算法,从环境中返回的奖励信号被用来更新动作价值函数。深度学习(Deep Learning,DL)与Q学习方法结合,提出了性能良好的深度Q学习算法,使其能够在大多数的游戏环境中得分超过人类玩家。该算法使用了经验回放机制,其将智能体与环境交互得到的转移过程存放在一个大尺寸的缓存空间中,并以监督学习的方式让智能体学习这些采集到的真实经验。
然而,智能体收集交互经验是一个十分费时且消耗硬件资源的过程,尤其是在环境状态空间很大的情况下。而且对于大多数现实中的控制器而言,简陋的硬件资源难以为经验回放机制提供足够大的缓存空间。这大大限制了强化学习算法在现实工业环境的普遍应用。另外,有研究证明了并非经验回放缓存空间尺寸越大算法效果越好。优先级经验回放方法,建议更加频繁的重播具有较高期望的转移过程,并根据时序误差为依据为转移过程划分优先级。该算法有限度的改善了原深度Q网络(Deep Q Net,DQN)对于经验回放缓存中的转移过程利用效率低下的问题,但提升效果较差,不能有效将有用经验保留下,也不能将低效的转移过程尽快从经验缓存中去除,使得对采集到的样本数据利用率低,无法实现高精度的算法运行效果。
强化学习样本利用效率问题:无模型强化学习算法不需要使用任务环境的先验知识对环境进行建模,但需要智能体频繁的与环境进行交互得到状态转移过程(经验),这一过程是相当费时且占用计算资源的,因此解决样本利用效率低下问题是提高强化学习算法性能的重中之重。
经验池占用缓存空间过大问题:DQN算法是近些年来强化学习算法的一大进步,其在多个游戏环境中得分超过人类玩家,是通往通用人工智能的重要一步。在该算法中,为了以有监督的形式训练深度神经网络,使用了经验回放机制。该机制在计算机缓存占用相当大的空间以存储智能体与环境交互得到的转移过程(经验,通常需要存放106条经验),并在每个时间步以有监督学习的方式训练网络。但是,现实中常见的控制器自身内存空间有限,并不能为经验回放机制提供相应的使用条件,这大大限制了强化学习算法在现实生活中的普遍应用。
最合适并控制车轮行进方向,是较为精确且实用的路径规划算法,但现有技术中涉及的驾驶仿真与测试环境,基于传统的训练模型存储的路径空间有限,不能为经验回放机制提供使用条件,训练模型利用率低,大大限制了车辆路径规划在现实生活中的普遍应用。
发明内容
为解决上述技术问题,本发明中的相应算法可使智能体有效利用采样得到的样本数据,且可大大降低经验回放机制所占用的内存空间,应用于车辆路径规划,有效解决了车辆路径规划的训练模型利用率低,不利于车辆路径规划在现实生活中的普遍应用问题。
第一方面,本发明提供了基于时序差分更新经验回放缓存的路径规划方法,步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010115628.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种妇科熏治理疗仪
- 下一篇:一种可多角度调节的移动式液晶广告机