[发明专利]一种车载网环境下基于深度强化学习的任务调度方法有效
申请号: | 201710367333.1 | 申请日: | 2017-05-23 |
公开(公告)号: | CN107145387B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 窦万春;费凡 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06F9/54;G06N3/06;G06N3/08;H04L29/08 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种车载网环境下基于深度强化学习的任务调度方法,包括以下步骤:步骤1:获取每一个路侧单元覆盖范围内的车流量数据;步骤2:获取每一个路侧单元的负载数据,并将此数据以多播形式传递给其他路侧单元;步骤3:构架深度神经网络,对相关变量进行初始化;步骤4:初始时间内,对于范围内到达的请求,随机选择在本地执行或者负载到任意其他路侧单元执行记录请求从到达到完成的时间;步骤5:当步骤4收集的数据到达一定规模,对神经网络进行更新;步骤6:对于新到达的请求,根据各区域车流量以及各路侧单元的负载,使用更新过的神经网络进行分配;步骤7:收集数据,重复执行步骤5~6。 | ||
搜索关键词: | 一种 车载 环境 基于 深度 强化 学习 任务 调度 方法 | ||
【主权项】:
1.一种车载网环境下基于深度强化学习的任务调度方法,其特征在于,包括以下步骤:步骤1,在一定范围内,获取每一个路侧单元覆盖范围内的车流量数据和一定范围内到达的任务;步骤1中,假设有N个路侧单元,获取每一个路侧单元在t时间段内的车流量,用Qi,t表示第i个路侧单元Ri在t时间段内的车流量,i取值为1~N;步骤2,获取每一个路侧单元的负载数据,并将此负载数据以多播形式传递共享给其他路侧单元;步骤2包括:步骤2‑1,第i个路侧单元Ri记录其当前任务队列长度Li,并将当前任务队列长度Li共享给其他N‑1个路侧单元;步骤2‑2,对于一个路侧单元,当该路侧单元共享其当前任务队列长度Li给其他N‑1个路侧单元时,记录该路侧单元当前共享时刻的当前任务队列长度为Llast,当新到达一个任务时当前任务队列长度Li加一,当完成一个任务时,当前任务队列长度Li减一;步骤2‑3,当|Llast‑Li|>δ时,第i个路侧单元Ri将最新的当前任务队列长度Li通知到其他N‑1个路侧单元,其中δ是一个触发状态共享的阈值;步骤2‑4,每个路侧单元都得到一个当前全局的环境变量Vt,Vt=[Q1,t,Q2,t,...QN,t,L1,L2,...LN]T,QN,t表示第N个路侧单元RN在t时间段内的车流量,LN表示第N个路侧单元RN的当前任务队列长度;步骤3,构架神经网络,并进行初始化;步骤3包括:步骤3‑1,神经网络输入层为2N个神经元,每个神经元包含的两个参数分别为路侧单元的当前全局的环境变量Vt与任务包的大小PackageSize,任务包在网络间传播时间正比于任务包的大小,隐层为K个神经元,隐层设置为两层,输出层为N个神经元,使用ReLu函数作为神经网络的激活函数,Relu函数定义为对于给定变量x,其输出为g(x)=max(0,x),神经网络在
层传播函数
按照下面公式进行计算:
其中,
表示神经网络中输入层、第一个隐层、第二个隐层或者输出层,在输入层
为(2N)×K的矩阵,在第一个隐层到第二个隐层
为K×K的矩阵,在第一个隐层到输出层或第二个隐层到输出层
为K×N的矩阵,
为第
层的偏移量,
为第
层的输入;步骤3‑2,对于神经网络各层权重,根据下述区间的一个均匀分布来初始化神经网络各层权重:
其中fanin和fanout分别表示输入神经元的个数与输出神经元的个数,对于输出层到第一个隐层或者输出层到第二个隐层时fanin和fanout分别为2N+1和K,对于第一个隐层到第二个隐层fanin和fanout分别为K和K,从第一个隐层到输出层或者第二个隐层到输出层fanin和fanout分别为K和N;步骤3‑3:对于神经网络最后的输出,使用softmax函数得到每一个策略对应的概率,计算公式为:
其中Pi代表当前任务派发到路侧单元Ri的概率,yi和yj分别为输出层第i个神经元的输出与第j个神经元的输出;步骤4,初始时间内,对于步骤1所述一定范围内到达的任务,随机选择在本地执行或者负载到任意其他路侧单元执行,记录任务从到达到完成的时间;所述一定范围为一个路段,或者城际高速公路的起点到终点;步骤4包括:步骤4‑1,对于新到达的任务,以概率ε选择在本地执行任务,以1‑ε的概率选择在其他路侧单元执行此任务;步骤4‑2,如果选择其他路侧单元执行此任务,任务按照均匀分布分配到其余路侧单元,即分配到其余路侧单元的概率为1/(N‑1);步骤4‑3,对于第i个任务Ti,Ti={Vt,Proi,RSi},表示Ti包括三个参数Vt、Proi和RSi,其中Vt是步骤2‑4得到的当前全局的环境变量,Proi为第i个任务分配到第i个路侧单元的概率,RSi为第i个任务的响应时间,即从任务到达路侧单元开始到执行为止的时间;如果任务在当前路侧单元即本地执行,则响应时间等于在当前任务队列的等待时间,如果任务在其它路侧单元执行,则响应时间等于网络传输时间加上在新的路侧单元的任务队列的等待时间;对于到达的每一个任务,均收集如下数据:第i个任务对应的当前全局的环境变量、第i个任务分配到第i个路侧单元的概率和第i个任务的响应时间;步骤5,当步骤4收集的数据到达一定规模BatchSize,对神经网络进行更新;步骤6,对于新到达的任务,使用更新过的神经网络进行分配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710367333.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种可穿戴设备
- 下一篇:防撞柜门结构及配电柜