[发明专利]面向强化学习的检测防御异常数据方法和装置在审
申请号: | 202010608352.0 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111753300A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 陈晋音;章燕;王雪柯;王珏 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62;H04L29/06 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 强化 学习 检测 防御 异常 数据 方法 装置 | ||
1.一种面向强化学习的检测防御异常数据方法,其特征在于,包括以下步骤:
S1、采集场景a下小车正常驾驶状态作为样本数据,对样本数据采用PCA降维处理,得到前n个特征值的累计贡献率α以及相应的变换矩阵P;
S2、基于DDPG算法建立场景a下自动驾驶训练模型,预训练场景a下自动驾驶训练模型,将状态转换过程存入经验回放缓冲区D,所述的场景a下自动驾驶训练模型包括主网络、目标网络和经验回放缓冲区D;
S3、采集场景a下自动驾驶训练模型训练过程中的状态st,利用变换矩阵P对状态st进行降维处理,计算前n个特征值的累计贡献率α’;
S4、若||α-α’||≥∈,则判定st异常,向对应的奖励值rt增加惩罚项并将更新后的状态转换过程存储在经验回放缓冲区D中,所述的ξ的取值范围为ξ<0;
S5、根据更新后的奖励值计算损失函数,利用损失函数更新主网络的参数。
2.根据权利要求1所述的面向强化学习的检测防御异常数据方法,其特征在于,采集场景a下小车正常驾驶状态作为样本数据,对样本数据采用PCA降维处理,得到前n个特征值的累计贡献率α以及相应的变换矩阵P,具体如下:
S11、从训练数据存储区中采集场景a下T个时刻的小车正常驾驶状态数据xs组成矩阵X序列作为样本数据;
S12、根据式(1)对每个小车正常驾驶状态数据xs进行标准化处理得到
其中,为ys中第i行第j列的数据,为xs中第i行第j列的数据,μi为第i行数据的均值,σj为第j行数据的标准差;
S13、根据式(2)计算协方差矩阵S,
其中,是ys矩阵中第i行数据,是ys矩阵中第i行数据的转置;
S14、计算协方差矩阵S的特征值λk(k=1,2,…,m)和对应的特征向量ak(k=1,2,…,m);
S15、将特征值λk按照从大到小排列,λ1≥λ2≥…≥λm;选择累计贡献率大于阈值的前n个特征值对应的特征向量(a1,…,an)组成m行n列的变换矩阵P,前n个特征值的累积贡献率为主成分的累计贡献率α,累计贡献率α的计算公式如式(3)所示;
或者,根据式(4)计算每个特征值的贡献率ηk,将贡献率按照从大到小排列η1≥η2≥…≥ηm,选择累计贡献率大于阈值的前n个特征值对应的特征向量(a1,…,an)组成m行n列的变换矩阵P,前n个特征值的累积贡献率为主成分的累计贡献率α,累计贡献率α的计算公式如式(5)所示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010608352.0/1.html,转载请声明来源钻瓜专利网。