[发明专利]一种工业互联网边缘服务缓存决策方法及系统在审
申请号: | 202111556973.X | 申请日: | 2021-12-18 |
公开(公告)号: | CN114281718A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 叶可江;唐璐婕;须成忠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F12/0877 | 分类号: | G06F12/0877;G06F30/27;G06N3/04;G06N3/08 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 刘建伟 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 工业 互联网 边缘 服务 缓存 决策 方法 系统 | ||
1.一种工业互联网边缘服务缓存决策方法,其特征在于,包括以下步骤:
S1.基于服务访问时延对工业互联网系统进行数学建模,建立系统模型;
S2.基于系统模型建立达到最小化的服务访问时延的优化目标;
S3.基于深度确定性策略梯度算法构建能够实现所述优化目标的深度元强化学习框架;
所述工业互联网系统包括多个设备、多个边缘服务器和一个云服务器;所述设备通过所述边缘服务器连接到云服务器;多个所述边缘服务器之间彼此通信连接。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,所述服务访问时延包括服务通信时延和服务执行时延;
所述服务通信时延包括设备发送请求到最近的边缘服务器,以及所述边缘服务器将完成请求后服务结果发送回设备的时间;
服务执行时延包括在边缘服务器或云服务器上的运行服务的完成时间。
3.根据权利要求2所述的方法,其特征在于,在所述设备包括工业设备和传感器设备。
4.根据权利要求3所述的方法,其特征在于,所述深度元强化学习框架包括输出最小化服务访问时延的内层模型;还包括,提高所述内层模型适用环境的能力外层模型。
5.根据权利要求4所述的方法,其特征在于,所述内层模型的Actor网络和Critic网络都使用深度神经网络来建立近似函数;所述内层模型直接从所述Actor网络的策略生成确定的行为;所述内层模型在所述深度神经网络的学习阶段通过在确定性的行为基础上增加一个噪声函数。
6.根据权利要求5所述的方法,其特征在于,所述内层模型为所述Actor网络和所述Critic网络各备份了一套参数用来计算行为价值的期待值;主要参数基于所述深度神经网络的学习过程进行更新;备份参数的更新频率低于所述主要参数;
当所述Actor网络使用所述主要参数时生成Actor Online策略网络;
当所述Actor网络使用所述备份参数时生成Actor Target策略网络;
当所述Critic网络使用所述主要参数时生成Critic Online Q网络;
当所述Critic网络使用备份参数时生成Critic Target Q网络。
7.根据权利要求6所述的方法,其特征在于,所述外层模型将不同环境中的缓存决策和执行结果输入到所述内层模型中进行训练;每次训练,所述内层模型在一个环境中随机选择训练样本进行学习,并在学习后随机选择另一个环境进行迭代,以提高内层模型适用环境的能力。
8.一种采用如权利要求1-7任意一项所述方法的工业互联网边缘服务缓存决策系统,包括:数学建模模块、目标建立模块和服务缓存决策模块;其特征在于,所述数学建模模块基于服务访问时延对工业互联网系统进行数学建模,建立系统模型;
所述目标建立模块基于系统模型建立达到最小化的服务访问时延的优化目标;
所述服务缓存决策模块基于深度确定性策略梯度算法构建能够实现所述优化目标的深度元强化学习框架;
所述工业互联网系统还包括多个设备、多个边缘服务器和一个云服务器;所述设备通过所述边缘服务器连接到云服务器;多个所述边缘服务器之间彼此通信连接。
9.根据权利要求8所述的系统,其特征在于,所述深度元强化学习框架包括输出最小化服务访问时延的内层模型;还包括,提高所述内层模型适用环境的能力外层模型。
10.根据权利要求9所述系统,其特征在于,所述内层模型为所述Actor网络和所述Critic网络各备份了一套参数用来计算行为价值的期待值;主要参数基于所述深度神经网络的学习过程进行更新;备份参数的更新频率低于所述主要参数;
当所述Actor网络使用所述主要参数时生成Actor Online策略网络;
当所述Actor网络使用所述备份参数时生成Actor Target策略网络;
当所述Critic网络使用所述主要参数时生成Critic Online Q网络;
当所述Critic网络使用备份参数时生成Critic Target Q网络;
所述外层模型将不同环境中的缓存决策和执行结果输入到所述内层模型进行训练;每次训练,所述内层模型在一个环境中随机选择训练样本进行学习,并在学习后随机选择另一个环境进行迭代,以提高内层模型适用环境的能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111556973.X/1.html,转载请声明来源钻瓜专利网。