[发明专利]一种基于分布强化学习的通用可靠最短路方法有效
申请号: | 202110889470.8 | 申请日: | 2021-08-04 |
公开(公告)号: | CN113537628B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 郭宏亮;盛文达 | 申请(专利权)人: | 郭宏亮 |
主分类号: | G06Q10/047 | 分类号: | G06Q10/047 |
代理公司: | 成都正德明志知识产权代理有限公司 51360 | 代理人: | 张小娟 |
地址: | 610051 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布 强化 学习 通用 可靠 短路 方法 | ||
本发明公开了一种基于分布强化学习的通用可靠最短路方法,所述基于分布强化学习的通用可靠最短路方法包括:S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。本发明所提供的基于分布强化学习的通用可靠最短路方法,能够解决现有的基于分布强化学习的通用可靠最短路方法耗时且效率低下的问题。
技术领域
本发明涉及路径规划技术领域,具体涉及一种基于分布强化学习的通用可靠最短路方法。
背景技术
路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线称之为路径,构成路径的策略称之为路径规划。
路径规划在很多领域都具有广泛的应用。在高新科技领域的应用有:机器人的自主无碰行动;无人机的避障突防飞行;巡航导弹躲避雷达搜索、防反弹袭击、完成突防爆破任务等。在日常生活领域的应用有:GPS导航;基于GIS系统的道路规划;城市道路网规划导航等。在决策管理领域的应用有:物流管理中的车辆问题(VRP)及类似的资源管理资源配置问题。通信技术领域的路由问题等。凡是可拓扑为点线网络的规划问题基本上都可以采用路径规划的方法解决。
不确定性下的路径规划是智能交通系统最基本的组成部分之一。虽然最小预期时间被视为是随机交通网络中最受欢迎和最简单的路径规划目标。但在现实中,有很大一部分路径规划问题不仅仅是考虑预期到达时间,可能考虑到道路的可靠性和风险规避,这类问题被称作可靠最短路径问题。根据不同的需求,会有不同的可靠最短路径问题定义,并有不同的方法加以解决。
目前常用的可靠最短路方法,几乎所有方法都只能解决一种可靠最短路问题,不能同时解决多种问题需求。并且大部分方法在实现过程中需要假设路径行驶时间的基于某种特殊分布。在路径规划问题中,方法的实时性也是一个重要衡量标准,大部分可靠最短路径方法往往十分耗时,并不能满足实时的需求。
发明内容
本发明的目的在于提供一种基于分布强化学习的通用可靠最短路方法,以解决现有的基于分布强化学习的通用可靠最短路方法耗时且效率低下的问题。
本发明解决上述技术问题的技术方案如下:
本发明提供一种基于分布强化学习的通用可靠最短路方法,所述基于分布强化学习的通用可靠最短路方法包括:
S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;
S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。
可选择地,所述训练方法包括:
S11:初始化所有路径的概率分布表;
S12:随机选择所述所有路径的概率分布表中的任意一个起点;
S13:随机选择所述起点上的任意一条路径,并根据所述路径,得到所述路径的预设消耗时间;
S14:在所述路径上标记多个标记点;
S15:向下一个标记点移动,得到移动消耗时间;
S16:根据所述移动消耗时间更新所述所有路径的概率分布表,得到更新后的概率分布表;
S17:判断当前标记点是否为最后一个标记点,若是,进入步骤S18;否则返回步骤S13;
S18:判断是否结束训练,若是,将所述更新后的概率分布表作为最优路径的概率分布表输出;否则返回步骤S12。
可选择地,所述步骤S18中,通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郭宏亮,未经郭宏亮许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110889470.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:带分体孔位和天地杆的锁体
- 下一篇:一种用于大余量铸件毛坯的摆线加工方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理