[发明专利]异构车联网中面向异质业务的分布式资源分配方法及系统有效
申请号: | 201910968516.8 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110753319B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 田杰;刘倩倩;刘爽;支媛 | 申请(专利权)人: | 山东师范大学 |
主分类号: | H04W4/40 | 分类号: | H04W4/40;H04W24/02;H04W24/06;H04W28/02 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异构车 联网 面向 业务 分布式 资源 分配 方法 系统 | ||
1.一种异构车联网中面向异质业务的分布式资源分配方法,其特征在于,步骤如下:
获取异构蜂窝车联网系统内的蜂窝用户、通信信道和V2V用户信息;
采用时延违约概率和归一化的吞吐量,构建V2V用户时延敏感业务的效用函数和时延容忍业务的效用函数,得到V2V用户异质业务的混合效用函数;
所述时延敏感业务的效用函数直接采用基于时延违约概率的丢包率获取,具体为:
其中,为第k个用户的时延敏感类的效用函数,Pdly为超过时延要求的丢包率,Tth表示时延要求的阙值,Tk为队列中等待的时间;
所述时延容忍类业务采用整个传输过程中归一化的吞吐量来反映通信质量的总体的情况,所述时延容忍类业务的效用函数具体为:
其中,表示第k个用户时延容忍类业务的效用函数,Wth为V2V用户传输时延容忍类业务所需的物理吞吐量,Wk为V2V用户实时的吞吐量;
当V2V用户具有时延敏感和时延容忍两类异质业务时,建模为混合效用函数:
其中,Rk(t),为k用户在t时刻的混合效用函数,bk为业务类型标识因子,bk=1表示为时延敏感类业务,bk=0表示时延容忍类业务;
建立多用户的马尔可夫决策模型,确定状态空间、动作空间和回报函数,确定动作空间为通信信道的选择和发射功率的选择,并以混合效用最大化为目标,确定回报函数;
通过采用MADDPG算法训练好的Actor网络,根据每个V2V用户当前观测到的状态信息,以每一个V2V用户获得最高的回报为目标,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式;
利用MADDPG算法,集中训练Actor网络和Critic网络,分布执行Actor决策网络,得到最佳的资源分配方式,具体为:
(9-1)初始化蜂窝用户和V2V用户数、学习速率、迭代次数、Critic网络和Actor网络的参数,reply buffer D=0;
(9-2)第一次迭代开始,每一个V2V用户从环境中得到一个初始的状态S;
(9-3)每一个V2V用户根据Actor网络的确定性策略由初始状态,选择一个动作ai,并得到一个立即回报r,更新到下一个状态S’,将集合(S,a,r,S'),存入到reply buffer D中;
在MADDPG算法中,集中训练表示为,每一个V2V用户使用经验回放方法,观测到其他用户的信息,其中经验缓存区D具体表示为一个所有用户此时的状态,选择动作,获得立即回报,下一时刻状态的集合:
D={s1,s2……sK,a1,a2……aK,r1,r2……rK,s1',s2'……sK'};
(9-4)Critic网络的构建和更新:对于每一个V2V用户,从D中选取一部分数据,训练一个集中的动作值函数,输入网络中所有V2V用户的状态和动作信息,输出此用户此状态下每一个动作的输出Q值,再利用最小化loss函数,更新Critic网络;
(9-5)Actor网络的构建和更新:对于每一个V2V用户,从D中选取一部分数据,根据Actor网络自身的确定性策略梯度和从Critic网络传来的集中的状态-动作Q函数值,输出此状态下最佳的动作,利用确定性策略梯度下降方法,更新Actor网路;
(9-6)重复步骤(9-3)、(9-4)和(9-5)到设定得次数,第一迭代结束;再迭代到设定的次数,更新Actor和Critic的网络参数,并返回训练好的在线Actor网络;
(9-7)利用训练好的Actor网络,输入每个V2V用户当前观测到的状态信息,得到关于通信信道和发射功率选择的最佳动作,进而得到最佳的资源分配方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910968516.8/1.html,转载请声明来源钻瓜专利网。