[发明专利]一种蜂窝物联网上行资源分配方法及电子设备在审
申请号: | 202110164357.3 | 申请日: | 2021-02-05 |
公开(公告)号: | CN113163479A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 孙德栋;欧清海;张宁池;姚贤炯;王艳茹;刘椿枫;李温静;丰雷;刘卉;马文洁;张洁;陈毅龙;郭丹丹;佘蕊;杨志祥;王志强;贺军 | 申请(专利权)人: | 北京中电飞华通信有限公司;国网信息通信产业集团有限公司;国网上海市电力公司;北京邮电大学;国网陕西省电力公司;国家电网有限公司 |
主分类号: | H04W52/14 | 分类号: | H04W52/14;H04W72/04;H04W72/10 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 孙晓凤 |
地址: | 100070 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蜂窝 联网 上行 资源 分配 方法 电子设备 | ||
1.一种蜂窝物联网上行资源分配方法,其特征在于,包括:
将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体,对所述智能体执行如下操作,直至达到预设迭代次数:
所述智能体根据所述智能体当前系统状态采用探索-利用策略选取动作空间Ai中的动作ai并执行所述动作ai;
根据执行的所述动作ai通过奖励函数计算每个所述智能体的奖励值;以及
根据所述智能体的Q函数确定所述智能体当前系统状态下的Q函数,且所述智能体从当前系统状态进入下一系统状态;
基于所述智能体的估计策略、平均估计策略确定所述智能体执行所述动作ai时的平均估计策略和估计策略;以及
响应于确定所述智能体执行所述动作ai时的估计策略值大于平均估计策略值,利用学习速率δw调整当前的估计策略,否则利用学习速率δl调整当前的估计策略,其中δlδw;
所述智能体执行的以上操作达到所述预设迭代次数,得到最优的所述估计策略;
根据最优的所述估计策略,对所述蜂窝物联网的上行资源进行资源分配。
2.根据权利要求1所述的方法,其特征在于,所述将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体,对所述智能体执行如下操作,直至达到预设迭代次数,之前还包括:
将所述智能体初始的Q函数初始值记作0,确定用于记录系统状态S出现次数的计数器Xi(S),以及所述智能体初始的估计策略π(S,ai)、平均估计策略其中,初始的估计策略初始的平均估计策略
3.根据权利要求2所述的方法,其特征在于,所述系统状态S由所述直传节点的状态sw和所述边缘节点的状态sn构成,其中,S={sw,sn,w∈W,n∈N};
具体的,所述直传节点的状态sw包括所述直传节点的信道分配系数λw,c,所述边缘节点的状态sn包括所述边缘节点n的信道分配系数ηn,r,c和传输功率控制系数θn,其中,λw,c={0,1},sw={λw,c,w∈W,c∈C},ηn,r,c={0,1},θn={0.0,0.2,0.4,0.6,0.8,1.0},sn={ηn,r,c,θn,n∈N,r∈R,c∈C}。
4.根据权利要求3所述的方法,其特征在于,将所述奖励函数记作rew(S,ai),若所述智能体为边缘节点,则所述奖励函数rew(S,ai)的算法为:
若所述智能体为直传节点,则所述奖励函数rew(S,ai)的算法为:
5.根据权利要求4所述的方法,其特征在于,所述确定所述智能体当前系统状态下的Q函数计算方法为:
将所述Q函数的记作Qi(S,ai),
其中,δq表示Q函数学习速率,β表示累计奖励折扣系数,分别为下一次到达的系统状态和执行的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中电飞华通信有限公司;国网信息通信产业集团有限公司;国网上海市电力公司;北京邮电大学;国网陕西省电力公司;国家电网有限公司,未经北京中电飞华通信有限公司;国网信息通信产业集团有限公司;国网上海市电力公司;北京邮电大学;国网陕西省电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110164357.3/1.html,转载请声明来源钻瓜专利网。