[发明专利]一种基于强化学习的服务任务调度方法有效
申请号: | 202110623287.3 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113361912B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 曹斌;陈德胜;陈灏;李甜甜;范菁 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06N3/08;G06N3/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 服务 任务 调度 方法 | ||
1.一种基于强化学习的服务任务调度方法,其特征在于,包含以下步骤:
步骤1)根据服务任务需求对服务任务进行建模,构建服务任务环境,包括:
步骤1.1)根据服务需求的可能范围对服务任务需求环境进行随机初始化;服务任务需求主要包括需要安排调度的天数、需要安排调度期间每日的服务任务需求量、可参与调度的服务人员数、参与调度的服务人员的能力值、服务人员最小连续工作天数、服务人员最大连续工作天数、需要安排调度的天数中每个参与调度的服务人员需要休息的次数、每个服务人员已经连续工作的天数;
步骤1.2)规定服务任务环境可选动作集合为A={休息,工作};
步骤1.3)服务任务环境对于每次服务人员调度安排前需要给出满足服务任务需求的服务人员调度方式;计算服务人员满足服务任务需求的调度方式的方法如下:
其中,c表示该服务人员已经连续工作的天数,l表示剩余需要调度安排的天数,M表示服务人员最大连续工作天数,m表示服务人员最小连续工作天数,r表示剩余需要调度的天数中该服务人员还需要休息的次数,xi为i天,表示连续工作i-1天后休息1天的安排;ti表示在剩余需要调度的天数中xi安排的可选次数;由此我们可以根据ti和c给出当前满足服务任务需求的可选安排;
步骤1.4)根据服务任务需求定义服务任务环境的动作奖励;
步骤1.5)服务任务环境从需要安排调度的第1天第1个服务人员开始调度安排,完成第1天的调度安排后再从第2天第1个服务人员开始,直到需要安排调度的最后一天完成后结束;服务任务环境在每一次安排前给出当前的服务任务环境状态st,以及当前服务人员可选的满足服务任务需求的调度安排A′,接收智能体对当前的调度安排a({a|a∈A}),给出当前安排的即时奖励rt,并迭代环境到下一状态st+1,重复这一安排过程直至环境到达结束状态,即完成了整个服务任务的服务人员调度;
步骤2)使用ε-Greedy方法在步骤1)构建的服务任务环境中进行半随机服务人员工作安排;
步骤3)基于步骤2)得到的服务人员工作安排,使用强化学习方法对不同工作安排的价值差异进行学习,并使用深度神经网络Q近似不同调度安排的价值;
步骤4)基于步骤3)训练得到的深度神经网络Q,对服务人员不同调度安排的价值进行预测,选择输出较优的人员调度安排。
2.如权利要求1所述基于强化学习的服务任务调度方法,其特征在于,使用ε-Greedy进行半随机人员工作安排:
步骤2.1)ε-Greedy方法如下:
通过产生一个[0,1)的随机数,如果产生的随机数小于ε则在当前可选动作集合A′中随机选择一个a作为当前的动作,即当前服务人员的调度安排;如果产生的随机数不小于ε,则通过全连接深度神经网络Q对当前状态st下的不同的服务人员调度方式的价值进行预测,选取价值最大的服务人员调度方式作为当前服务人员的调度安排;
步骤2.2)将步骤2.1)中ε-Greedy产生的服务人员调度安排a输入到步骤1)中的服务任务环境中,使服务任务环境执行调度安排a,给出即时奖励rt,服务任务环境从st状态转移到st+1状态,将状态转移元组(st,at,rt,st+1)存储到记忆Memory Buffer中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110623287.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理