[发明专利]基于深度强化学习的动态环境下的最大化系统效益方法在审
申请号: | 201910741705.1 | 申请日: | 2019-08-13 |
公开(公告)号: | CN110428115A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 刘倩;丁冉;邢志超;吴平阳;赵熙唯;李骏;桂林卿 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06N3/08 |
代理公司: | 江苏楼沈律师事务所 32254 | 代理人: | 沈勇 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 终端移动 最大化 建模 无人驾驶飞机 强化学习算法 动态环境 动态用户 基础设施 计算服务 计算资源 交互服务 路径规划 实时移动 通信渠道 位置状态 系统效益 信道状态 移动计算 移动模型 用户提供 用户位置 灾难区域 终端用户 低延时 电池量 高可靠 高斯 服务器 架构 移动 规划 服务 | ||
1.基于深度强化学习的动态环境下的最大化系统效益方法,其特征在于:考虑终端用户的实时移动性,将其建模成高斯-马尔科夫移动模型,合理考虑终端用户的实时移动,在此基础上考虑无人机路径规划问题为其提供计算服务,考虑用户端的相对公平性和无人机的能量约束,无人机在每个时隙所做出的决策都合理分配自身的能量在满足用户公平性的前提下服务用户,从而最大化系统长期奖励。
2.如权利要求1所述的基于深度强化学习的动态环境下的最大化系统效益方法,其特征在于:采用强化学习的方法寻找最优解,先将问题建模成马尔科夫决策过程,再用神经网络去近似状态动作值函数,然后基于强化学习求解最优策略,从而规划无人机路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910741705.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理