[发明专利]基于D-N的工业互联网入侵检测数据集处理方法在审
申请号: | 202111202373.3 | 申请日: | 2021-10-15 |
公开(公告)号: | CN113934719A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 刘明山;石伟诚;周原;韦晓宇 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/28;G06N20/20 |
代理公司: | 长春市恒誉专利代理事务所(普通合伙) 22212 | 代理人: | 李荣武 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 工业 互联网 入侵 检测 数据 处理 方法 | ||
1.基于D-N的工业互联网入侵检测数据集处理方法,其特征在于:基于D-N的工业互联网入侵检测数据集处理算法可以有效地分析工业互联网入侵检测数据集的数据类型,对工业互联网入侵检测数据集中的数据进行数据清洗,进行离散化和归一化处理。
2.根据权利要求1所述的基于D-N的工业互联网入侵检测数据集处理方法,其特征在于:首先,通过构建数据清洗池,对某些数据标签取特定值的数据项进行处理,如改写或剔除,降低数据的冗余度,以提高训练后集成学习类算法模型的泛化性能;其次,通过对非数值型数据标签的编码转换、算数平均值计算、平均绝对偏差计算三个步骤,将非数值型数据标签转换为离散的数值型标签,以提高数据集中数据标签的可用量;最后,通过对离散化处理后的非数值型数据标签、连续数值型数据标签进行归一化处理,进一步降低了不同数据标签中心值的数量级差异,以提高训练后集成学习算法模型的分类精度。
3.根据权利要求2所述的基于D-N的工业互联网入侵检测数据集处理方法,其特征在于:
(1)输入需要处理的数据集D,遍历数据集D的全部数据标签l1、l2、…ln;
(2)根据对数据集D数据标签的遍历结果,建立表头与数据集D数据标签顺序、名称完全一致的空表E,即数据清洗池;
(3)在数据清洗池E的每个数据标签l1、l2、…ln下分别输入需要处理的数据标签的取值v11、v12、…、v1m;v21、v22、…、v2m;…;vn1、vn2、…、vnm,以及每项的处理方式M,更新数据清洗池为Ef;
(4)以先逐行再逐列的顺序遍历数据集D,对比数据清洗池Ef,对需要处理的数据标签以处理方式M进行处理,得到遍历处理后的数据集Df;
(5)以先逐列再逐行的顺序遍历数据集D1,若数据标签的数据类型为数值型,则跳过该步骤;若数据标签的数据类型为非数值型,统计该数据标签的取值类型数量m,对该数据标签的m个取值类型进行简单编码:1、2、…、m,得到数值化的数据标签取值x1、x2、…、xn;
(6)根据步骤(5)中得到的数值化的数据标签取值x1、x2、…、xn,计算每个进行数值化处理数据标签的数值化取值的算数平均值AVG,其中
(7)根据步骤(5)中得到的数值化的数据标签取值x1、x2、…、xn及步骤(6)中得到的算数平均值AVG,计算每个进行数值化处理数据标签的数值化取值的平均绝对偏差STAD,其中
(8)根据步骤(5)、(6)、(7)中分别得到的xn、AVG、STAD,计算步骤(5)-(7)处理后最终的数值离散化后的数据标签取值x′n,其中注意若AVG=0或STAD=0,离散化后的x′n=0,得到遍历处理后的数据集Dd;
(9)遍历每个数据标签的取值,得到离散化后的数据标签取值最大值xmax和数据标签取值最小值xmin;
(10)根据步骤(9)中得到的xmax、xmin,计算数值归一化后的数据标签取值x″n,其中
(11)在对数据集Df所有列的数据完成步骤(5)-(10)的处理后,将所有处理后的数据按照数据集D的数据格式存储到新的数据集Dn中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111202373.3/1.html,转载请声明来源钻瓜专利网。