[发明专利]一种基于强化学习的区块链-边缘计算联合系统有效

专利信息
申请号: 202110870284.X 申请日: 2021-07-30
公开(公告)号: CN113572647B 公开(公告)日: 2022-05-13
发明(设计)人: 刘儿兀;耿元哲 申请(专利权)人: 同济大学
主分类号: H04L67/1004 分类号: H04L67/1004;H04L67/1097;H04L41/0823;G06N3/04;G06N3/08
代理公司: 上海科律专利代理事务所(特殊普通合伙) 31290 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 区块 边缘 计算 联合 系统
【权利要求书】:

1.一种基于强化学习的区块链-边缘计算联合系统,其特征在于,包含:区块链-边缘计算联合系统、智能体和经验池;所述区块链-边缘计算联合系统包括区块链网络和边缘计算网络;

所述边缘计算网络中具有大量的边缘服务器节点,除了构成一张边缘计算网络,还构成了一张区块链网络;边缘计算网络中的每个边缘服务器节点具有一定存储空间和计算能力,均可以被选择作为区块链网络中的共识节点参与到打包事务和执行共识过程的工作中;当手机用户卸载其任务到边缘服务器节点时,联合系统将选择合适的边缘服务器节点进行处理和响应,并不断创建事务,保存操作记录等日志信息;

所述智能体用于从外部环境获取各节点的通信环境状态信息和区块链环境状态信息,并负责做出行为决策;

所述经验池用于存储智能体在不同环境状态下的行为尝试经历,以供智能体后续采样并进行经验学习;

区块链-边缘计算联合系统作为环境,并向智能体提供环境信息;智能体将该环境信息作为状态,输入到自带的神经网络中;神经网络通过计算当前状态下执行不同动作的预期收益,进行行为决策,使得能够得到的回报最大化;其中在训练阶段,智能体将通过从经验中采样过去的经验进行学习,逐步调整行为策略,实现区块链-边缘计算联合网络的性能优化;

算法具体步骤如下:

S1.区块链-边缘计算联合系统向智能体提供环境状态,具体包括同时用作边缘服务器节点和区块链节点的全部N个节点在时隙t的最新股权数量φ(t)、信誉值D(t)、手机用户计算任务大小B(t)以及上一时刻的通信信道状态H(t-1),记作s(t)=[φ(t),D(t),B(t),H(t-1)];

S2.智能体接收到环境状态s(t)后,将其输入到神经网络θ中;智能体利用神经网络计算在当前的环境状态下,执行不同动作能够获得的预期回报,并最终输出能使预期回报最大化的一套动作a(t)=[α(t),β(t),SB(t),TI(t)];其中所述动作的具体内容包括:从N个联合系统节点中选择其中K个节点参与区块共识的节点集合α(t),边缘服务器节点通信功率分配比例β(t),设置区块链大小SB(t),设置区块生成间隔TI(t);

S3.联合系统根据当前时刻的环境状态s(t)和智能体做出的动作a(t),给出奖励r(t)=ωTmec+(1-ω)Tblock;其中Tmec为边缘计算网络用于信息传输和计算的耗时,Tblock为区块打包与验证的耗时,ω为可调节的权重系数;同时,区块链-边缘计算联合系统进行环境状态更新并得到下一时刻的状态s(t+1),具体表现为联合系统中的N个节点更新各自的信息s(t+1)=[φ(t+1),D(t+1),B(t+1),H(t)],包括更新后的股权数量φ(t+1)、信誉值D(t+1)、当前手机用户计算任务大小B(t+1)和t时刻的通信信道状态信息H(t);

S4.判断当前是否处于训练阶段;若是训练阶段,则继续S5;若非训练阶段,即当前正在使用训练好的网络进行实际决策,则此时已得到合适的行动,流程结束;

S5.智能体存储在时隙t得到的经验样本e(t)=[s(t),a(t),r(t),s(t+1)]到经验池中;

S6.智能体随机从经验池中抽取一批经验样本,计算如下的损失函数:

其中,Q(s(t),a(t);θ)表示使用神经网络θ来估计状态s下执行动作a能够获得的未来期望收益,γ表示一个在0~1区间范围内的折扣系数,θi表示第i次迭代后的神经网络参数,是过往迭代中得到并保存的网络参数并每隔一段时间被θi-1替换;

S7.对上述损失函数进行差分运算,并利用随机梯度下降进行神经网络参数的更新;

S8.重复执行S1到S7,直至到达预先设定的最大循环次数;

其中,智能体所使用的神经网络的结构包括:

一个含有y个神经元的输入层,其中y是状态空间的维度数;

一个含有l1个神经元的隐藏层,作为第一层隐藏层,该层与输入层以全连接的方式连接;

一个含有l2个神经元的隐藏层,作为第二层隐藏层,该层与第一层隐藏层以全连接的方式连接;

一个含有l3个神经元的隐藏层,作为第三层隐藏层,该层与第二层隐藏层以全连接的方式连接;

一个含有z个神经元的输出层,其中z是动作空间的维度数,该层与第三层隐藏层以全连接的方式连接。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110870284.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top