[发明专利]一种基于强化学习的服务任务调度方法有效

申请号：	202110623287.3	申请日：	2021-06-04
公开（公告）号：	CN113361912B	公开（公告）日：	2022-05-27
发明（设计）人：	曹斌;陈德胜;陈灏;李甜甜;范菁	申请（专利权）人：	浙江工业大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06N3/08;G06N3/04
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	邱启旺
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习服务任务调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于强化学习的服务任务调度方法，能对一段较长时间内的服务任务需求下的服务人员调度给出较为合理的安排。首先根据服务任务需求对服务任务进行数学建模，构建服务任务环境。然后使用ε‑Greedy方法在服务任务环境中进行半随机服务人员工作安排，同时使用强化学习方法对半随机人员工作安排过程进行学习，即从不同调度安排之间的价值差异中进行学习，使深度神经网络近似不同调度安排的价值。最后通过使用深度神经网络对实际服务任务需求下不同调度安排的价值进行预测，然后选择输出较优的满足服务任务需求的服务人员调度安排的班表。本发明构建的基于强化学习的服务任务调度方法具有安排速度快、任务班表安排合理的特点。

技术领域

本发明属于运筹优化管理领域，尤其涉及一种基于强化学习的服务任务调度方法。

技术背景

服务任务调度技术是一项在服务任务需求下的服务人员调度技术，即在一段时间内，给定每日的服务任务需求量、服务任务需求的约束条件、可调度的服务人员信息，给出符合每日服务任务需求量且满足服务任务需求约束条件的服务人员调度安排的技术。

强化学习是一种机器学习方法，主要包括智能体、环境两大实体。智能体在环境中选择不同动作进行“尝试”和“试错”，获得环境的奖励，通过对不同状态下采取不同动作所获得的奖励值进行学习，进而优化在不同状态下的动作选择策略，最终使得智能体最大化获得的奖励。

近年来，随着深度强化学习的发展，强化学习在解决组合优化问题方面快速发展。强化学习方法对组合优化问题进行建模得到环境，在环境中进行学习训练，最终得到一个解决对应组合优化问题的动作选择策略。通过动作选择策略在不同情况下直接输出动作的方式，强化学习方法可以快速给出对应组合优化问题的解。

传统的服务任务调度技术主要使用启发式搜索方法或遗传算法的方法。其中基于启发式搜索方法主要依靠人为经验制定启发式策略，利用启发式策略进行优化搜索。其搜索效率、搜索效果直接取决于制定的启发式策略，但一个优秀启发式策略制定困难且受限于策略制定人的认知。遗传算法主要是模拟自然界生物进化的方式通过染色体选择、交叉、变异等过程，寻求较优解的方法。由于变异的随机性，该方法在变异过程中可能产生违反服务任务需求的染色体，导致最终结果不满足服务任务需求，或由于在服务任务需求的相关约束条件的选择下染色体难以“进化”的问题，并且对于每次求解都需要长时间的仿真模拟计算。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于强化学习的服务任务调度方法.

本发明的目的是通过以下技术方案来实现的：一种基于强化学习的服务任务调度方法，包含以下步骤：

1)对服务任务进行建模，构建服务任务环境。

2)使用ε-Greedy方法在步骤1)构建的服务任务环境中进行半随机服务人员工作安排。

3)基于步骤2)得到的服务人员工作安排，使用强化学习方法对不同工作安排的价值差异进行学习，并使用深度神经网络Q近似不同调度安排的价值。

4)基于步骤3)训练得到的深度神经网络Q，对服务人员不同调度安排的价值进行预测，选择输出较优的人员调度安排，即班表。

进一步地，所述步骤1)中，根据服务任务需求对服务任务建模，构建服务任务环境方法：

1.1)根据服务需求的可能范围对服务任务需求环境进行随机初始化。服务任务需求主要包括需要安排调度的天数、需要安排调度期间每日的服务任务需求量、可参与调度的服务人员数、参与调度的服务人员的能力值、服务人员最小连续工作天数、服务人员最大连续工作天数、需要安排调度的天数中每个参与调度的服务人员需要休息的次数、每个服务人员已经连续工作的天数。

1.2)规定服务任务环境可选动作集合为A＝{休息，工作}，即服务人员调度方式为休息或工作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110623287.3/2.html，转载请声明来源钻瓜专利网。

上一篇：多生态间的软件迁移方法、装置、计算机设备及存储介质
下一篇：一种附加转子轭部槽型无刷电励磁同步电机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的服务任务调度方法有效

专利文献下载