[发明专利]一种基于深度强化学习的信息物理系统安全控制方法有效
申请号: | 202111247290.6 | 申请日: | 2021-10-26 |
公开(公告)号: | CN113885330B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 吴承伟;柴庆杰;刘健行;孙光辉;吴立刚 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 信息 物理 系统安全 控制 方法 | ||
1.一种基于深度强化学习的信息物理系统安全控制方法,其特征在于,所述方法具体包括以下步骤:
步骤一、建立执行器虚假数据注入攻击下的信息物理系统模型;其具体过程为:
步骤一一、理想状态下,信息物理系统模型的动态方程为:
其中,表示信息物理系统的状态向量,表示实数域,nx表示状态向量x的维度,表示待设计的控制信号,nu表示控制信号u的维度,为x的一阶导数,f(·)表示广义函数映射;
步骤一二、基于欧拉方法对步骤一一中的信息物理系统模型进行离散化,得到离散化信息物理系统模型:
x(k+1)=(f(x(k),u(k)))Δt+x(k)
其中,x(k)代表离散化信息物理系统在k时刻的状态向量,u(k)代表k时刻的控制信号,Δt表示采样周期,x(k+1)代表离散化信息物理系统在k+1时刻的状态向量;
步骤一三、不考虑外部扰动、不确定性以及网络攻击行为的参考模型的动态方程为:
xr(k+1)=g(xr(k),ur(k))
其中,表示参考模型在k时刻的状态向量,ur(k)表示参考模型在k时刻的控制器,xr(k+1)表示参考模型在k+1时刻的状态向量,g(·)表示广义函数映射;
步骤一四、将存在虚假数据注入攻击情形下离散化信息物理系统模型的控制信号描述为:
其中,表示受攻击后在k时刻的控制信号,ua(k)表示在k时刻的虚假数据注入攻击信号,Γ表示虚假数据注入攻击的攻击分布矩阵;
步骤一五、将参考模型的状态向量作为离散化信息物理系统模型产生控制信号的部分输入,考虑受攻击后的控制信号,则步骤一二中的离散化信息物理系统模型被重新描述为执行器虚假数据注入攻击下的信息物理系统模型:
其中,表示将参考模型的状态向量xr(k)作为离散化信息物理系统模型产生控制信号的部分输入时,离散化信息物理系统模型在k时刻的状态向量,表示将参考模型的状态向量xr(k+1)作为离散化信息物理系统模型产生控制信号的部分输入时,离散化信息物理系统模型在k+1时刻的状态向量;
步骤二、将步骤一中建立的执行器虚假数据注入攻击下的信息物理系统模型描述为马尔科夫决策过程;
步骤三、搭建深度神经网络,基于搭建的深度神经网络为马尔科夫决策过程输出决策策略。
2.根据权利要求1所述的一种基于深度强化学习的信息物理系统安全控制方法,其特征在于,所述攻击分布矩阵Γ是对角矩阵,对角元素的取值均为0或1,若第i个执行器受到攻击,则攻击分布矩阵Γ的第i个对角元素取值为1,否则,第i个对角元素取值为0。
3.根据权利要求2所述的一种基于深度强化学习的信息物理系统安全控制方法,其特征在于,所述虚假数据注入攻击信号ua(k)为状态独立型攻击信号,若ua(k)是时不变的,则ua(k)=ω,其中,ω表示常值;若ua(k)是时变的,则其中,ω(k)表示有界的时变函数,表示攻击信号上界。
4.根据权利要求3所述的一种基于深度强化学习的信息物理系统安全控制方法,其特征在于,所述虚假数据注入攻击信号ua(k)为状态依赖型攻击信号,若ua(k)是时不变的,则ua(k)描述为其中,ω表示常值,若ua(k)是时变的,则ua(k)描述为其中,ω(k)表示有界的时变函数。
5.根据权利要求4所述的一种基于深度强化学习的信息物理系统安全控制方法,其特征在于,所述马尔科夫决策过程描述如下:
其中,表示k时刻的马尔科夫决策过程状态,表示k+1时刻的马尔科夫决策过程状态,表示在动作的作用下系统状态从到的转移概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111247290.6/1.html,转载请声明来源钻瓜专利网。