[发明专利]一种车载网环境下基于深度强化学习的任务调度方法有效

申请号：	201710367333.1	申请日：	2017-05-23
公开（公告）号：	CN107145387B	公开（公告）日：	2019-09-10
发明（设计）人：	窦万春;费凡	申请（专利权）人：	南京大学
主分类号：	G06F9/48	分类号：	G06F9/48;G06F9/50;G06F9/54;G06N3/06;G06N3/08;H04L29/08
代理公司：	江苏圣典律师事务所 32237	代理人：	胡建华;于瀚文
地址：	210023 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种车载网环境下基于深度强化学习的任务调度方法，包括以下步骤：步骤1：获取每一个路侧单元覆盖范围内的车流量数据；步骤2：获取每一个路侧单元的负载数据，并将此数据以多播形式传递给其他路侧单元；步骤3：构架深度神经网络，对相关变量进行初始化；步骤4：初始时间内，对于范围内到达的请求，随机选择在本地执行或者负载到任意其他路侧单元执行记录请求从到达到完成的时间；步骤5：当步骤4收集的数据到达一定规模，对神经网络进行更新；步骤6：对于新到达的请求，根据各区域车流量以及各路侧单元的负载，使用更新过的神经网络进行分配；步骤7：收集数据，重复执行步骤5～6。
搜索关键词：	一种车载环境基于深度强化学习任务调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种车载网环境下基于深度强化学习的任务调度方法，其特征在于，包括以下步骤：步骤1，在一定范围内，获取每一个路侧单元覆盖范围内的车流量数据和一定范围内到达的任务；步骤1中，假设有N个路侧单元，获取每一个路侧单元在t时间段内的车流量，用Q_i，t表示第i个路侧单元R_i在t时间段内的车流量，i取值为1～N；步骤2，获取每一个路侧单元的负载数据，并将此负载数据以多播形式传递共享给其他路侧单元；步骤2包括：步骤2‑1，第i个路侧单元R_i记录其当前任务队列长度L_i，并将当前任务队列长度L_i共享给其他N‑1个路侧单元；步骤2‑2，对于一个路侧单元，当该路侧单元共享其当前任务队列长度L_i给其他N‑1个路侧单元时，记录该路侧单元当前共享时刻的当前任务队列长度为L_last，当新到达一个任务时当前任务队列长度L_i加一，当完成一个任务时，当前任务队列长度L_i减一；步骤2‑3，当|L_last‑L_i|＞δ时，第i个路侧单元R_i将最新的当前任务队列长度L_i通知到其他N‑1个路侧单元，其中δ是一个触发状态共享的阈值；步骤2‑4，每个路侧单元都得到一个当前全局的环境变量V_t，V_t＝[Q_1，t，Q_2，t，...Q_N，t，L₁，L₂，...L_N]^T，Q_N，t表示第N个路侧单元R_N在t时间段内的车流量，L_N表示第N个路侧单元R_N的当前任务队列长度；步骤3，构架神经网络，并进行初始化；步骤3包括：步骤3‑1，神经网络输入层为2N个神经元，每个神经元包含的两个参数分别为路侧单元的当前全局的环境变量V_t与任务包的大小PackageSize，任务包在网络间传播时间正比于任务包的大小，隐层为K个神经元，隐层设置为两层，输出层为N个神经元，使用ReLu函数作为神经网络的激活函数，Relu函数定义为对于给定变量x，其输出为g(x)＝max(0，x)，神经网络在层传播函数按照下面公式进行计算：其中，表示神经网络中输入层、第一个隐层、第二个隐层或者输出层，在输入层为(2N)×K的矩阵，在第一个隐层到第二个隐层为K×K的矩阵，在第一个隐层到输出层或第二个隐层到输出层为K×N的矩阵，为第层的偏移量，为第层的输入；步骤3‑2，对于神经网络各层权重，根据下述区间的一个均匀分布来初始化神经网络各层权重：其中fanin和fanout分别表示输入神经元的个数与输出神经元的个数，对于输出层到第一个隐层或者输出层到第二个隐层时fanin和fanout分别为2N+1和K，对于第一个隐层到第二个隐层fanin和fanout分别为K和K，从第一个隐层到输出层或者第二个隐层到输出层fanin和fanout分别为K和N；步骤3‑3：对于神经网络最后的输出，使用softmax函数得到每一个策略对应的概率，计算公式为：其中P_i代表当前任务派发到路侧单元R_i的概率，y_i和y_j分别为输出层第i个神经元的输出与第j个神经元的输出；步骤4，初始时间内，对于步骤1所述一定范围内到达的任务，随机选择在本地执行或者负载到任意其他路侧单元执行，记录任务从到达到完成的时间；所述一定范围为一个路段，或者城际高速公路的起点到终点；步骤4包括：步骤4‑1，对于新到达的任务，以概率ε选择在本地执行任务，以1‑ε的概率选择在其他路侧单元执行此任务；步骤4‑2，如果选择其他路侧单元执行此任务，任务按照均匀分布分配到其余路侧单元，即分配到其余路侧单元的概率为1/(N‑1)；步骤4‑3，对于第i个任务T_i，T_i＝{V_t，Pro_i，RS_i}，表示T_i包括三个参数V_t、Pro_i和RS_i，其中V_t是步骤2‑4得到的当前全局的环境变量，Pro_i为第i个任务分配到第i个路侧单元的概率，RS_i为第i个任务的响应时间，即从任务到达路侧单元开始到执行为止的时间；如果任务在当前路侧单元即本地执行，则响应时间等于在当前任务队列的等待时间，如果任务在其它路侧单元执行，则响应时间等于网络传输时间加上在新的路侧单元的任务队列的等待时间；对于到达的每一个任务，均收集如下数据：第i个任务对应的当前全局的环境变量、第i个任务分配到第i个路侧单元的概率和第i个任务的响应时间；步骤5，当步骤4收集的数据到达一定规模BatchSize，对神经网络进行更新；步骤6，对于新到达的任务，使用更新过的神经网络进行分配。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710367333.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种车载网环境下基于深度强化学习的任务调度方法有效

专利文献下载