[发明专利]一种基于深度强化学习的大规模城市应急物资分配方法在审

申请号：	202210257857.6	申请日：	2022-03-14
公开（公告）号：	CN114693089A	公开（公告）日：	2022-07-01
发明（设计）人：	常晓林;范俊超;邵丽丽;刘雅婷	申请（专利权）人：	北京交通大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06Q50/26;G06N3/08;G06N20/00
代理公司：	北京市诚辉律师事务所 11430	代理人：	杨帅峰;岳东升
地址：	100044 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习大规模城市应急物资分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的大规模城市应急物资分配方法，其特征在于，包括以下步骤：

步骤一、对受灾区进行建模构建应急物资分配场景，生成各受灾区的初始状态S₁＝(S_1,1,S_2,1,...,S_|N|,1)以及各受灾区单位时间内对应急物资的需求量D＝{D₁,D₂,D₃,...,D_|N|}，并建立应急物资分配任务模型；

步骤二、根据应急物资分配的有效性，效率性以及公平性三项评估指标，定义面向多受灾区的应急物资分配联合目标优化函数；

步骤三、构建应急物资分配的马尔科夫决策过程，以应急响应中心作为智能体构建深度强化学习模型；

步骤四、应急响应中心对各受灾区进行多轮应急物资分配，获取多轮应急物资分配样本，将样本作为输入，训练深度强化学习模型；

步骤五、训练后的深度强化学习模型能够以受灾区状态作为输入，输出面对此状态的最优应急物资分配策略，决策策略包括对每个受灾区的物资分配量。

2.根据权利要求1所述的基于深度强化学习的大规模城市应急物资分配方法，其特征在于，步骤二中所述资源分配加权总成本的目标函数为：

其中，c_i表示受灾区i的单位物资的运输成本，a_i,t表示受灾区i在时刻t收到的单位物资数量，Γ(S_i,t)表示受灾区灾民因持续缺乏应急物资而产生的剥夺成本，Φ(S_i,T+1)表示应急物资分配的公平惩罚成本，ξ₁,ξ₂,ξ₃表示三项成本所占的权重，ξ₁,ξ₂,ξ₃∈[0,1]且ξ₁+ξ₂+ξ₃＝1，所述目标优化函数满足以下约束条件：约束条件1，单个决策周期内，分配到各受灾区的物资不得超过应急响应中心的物资容量；约束条件2，分配到各受灾区的物资数量应为单位物资的整数倍；约束条件3，受灾区的下一状态等于当前状态与受灾区物资需求量之和减去当前决策周期内受灾区被分配的物资数量。

3.根据权利要求2所述的基于深度强化学习的大规模城市应急物资分配方法，其特征在于，根据下面所述公式进行受灾区灾民因持续缺乏应急物资而产生的剥夺成本Γ(S_i，t)的计算，所述公式为：

其中，a和b为剥夺系数，L表示一个决策周期的时间跨度，S_i,t表示受灾区i在决策周期t时的状态。

4.根据权利要求2所述的基于深度强化学习的大规模城市应急物资分配方法，其特征在于，根据下面所述公式进行应急物资分配的公平惩罚成本Φ(S_i,T+1)的计算，所述公式为：

其中a和b为剥夺系数，L表示一个决策周期的时间跨度，S_i,T+1表示受灾区i在最后一个决策周期结束时的下一预期状态。

5.根据权利要求1所述的基于深度强化学习的大规模城市应急物资分配方法，其特征在于，步骤三中马尔可夫决策过程的构建过程具体为：确定状态空间，动作空间，奖励函数以及状态转移方程；将多受灾区的应急物资分配模型建模成马尔可夫决策过程，即在每个决策周期的开始，智能体观测当前环境状态，然后根据当前环境状态采取不同分配策略进行应急物资的分配；根据采取的策略，智能体会得到环境反馈的奖励，同时环境将根据智能体采取的动作转移到下一状态。

6.根据权利要求1所述的基于深度强化学习的大规模城市应急物资分配方法，其特征在于，步骤四中深度强化学习模型的训练方法具体为：智能体使用DQN强化学习框架，通过随机执行动作进行采样，样本都表示为(S_t,A_t,r_t,S_t+1)，DQN算法采用两个神经网络来进行训练，分别是当前网络和目标网络，当前网络根据样本中的状态与动作计算出Q(S_t,A_t)，目标网络计算得到最大估计Q值：

之后通过计算损失函数：

并对其进行梯度下降进行当前网络的参数更新，通过循环迭代，令当前网络向目标网络不断逼近，深度强化学习模型得到不断更新，更新公式为：

其中α为学习率，γ为折扣因子，r_t为状态S_t采取动作A_t获得的奖励值，S_t为决策周期t的环境状态，S_t+1为决策周期t+1时的环境状态，A_t为决策周期t时智能体采取的动作，A_t+1为决策周期t+1时智能体采取的动作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京交通大学，未经北京交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210257857.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于响应分布均衡性的序贯试验设计方法
下一篇：不粘连煤矸石页岩烧结砖切坯机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的大规模城市应急物资分配方法在审

专利文献下载