[发明专利]基于D-N的工业互联网入侵检测数据集处理方法在审
申请号: | 202111202373.3 | 申请日: | 2021-10-15 |
公开(公告)号: | CN113934719A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 刘明山;石伟诚;周原;韦晓宇 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/28;G06N20/20 |
代理公司: | 长春市恒誉专利代理事务所(普通合伙) 22212 | 代理人: | 李荣武 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 工业 互联网 入侵 检测 数据 处理 方法 | ||
本发明公开了一种基于D‑N的工业互联网入侵检测数据集处理方法,该算法改进了现有集成学习类算法解决工业互联网入侵检测问题时,数据集中的冗余数据项导致训练出的集成学习模型泛化性能差、数据集中某些类型的数据标签不能被集成学习的个体学习器识别、数据集中某些类型的数据标签被集成学习的个体学习器错误识别导致训练出的集成学习模型检测精度低的上述问题,为使用集成学习类算法解决工业互联网入侵检测问题时,训练数据集、验证数据集的处理提供了新的方法。
技术领域
本发明涉及数据集的处理、数据清洗、离散-归一化数学方法(D-N算法)、集成学习类算法的分类及其应用领域,尤其是用于实现工业互联网入侵检测的集成学习类算法中基于CART-AMV算法的KDD99数据集的处理中。
背景技术
集成学习类算法的出现,改进了机器学习中复杂繁琐的单一算法流程,通过构建大量算法简单、种类多样的个体学习器,可以有效地降低机器学习的算法复杂度和代价开销,这是集成学习类算法的优点。其缺陷是在对个体学习器的训练中,强依赖于使用的训练数据集。训练数据集数据结构的好坏直接影响了训练后个体学习器泛化性能的优劣。在工业互联网的入侵检测的集成学习类算法解决分类问题的应用背景下,已经有了诸如KDD99、KDD-NSD、UNSW-NB15等大型数据集,其数据量庞大、数据真实、入侵攻击类型覆盖全面。但是存在着数据大量冗余、数据类型不统一、部分数据标签不能被个体学习器识别的缺陷。
发明内容
本发明是为了解决集成学习算法对数据集数据结构的高要求,以及工业互联网入侵检测数据集缺失的问题而提出的,基于D-N的工业互联网入侵检测数据集处理算法通过数据清洗、数据离散化、数据归一化三个步骤实现对数据集的数据分析与整理。本发明可以应用于各种类型和规模的数据集。
实现本发明目的的具体技术方案是:
首先,通过构建数据清洗池,对某些数据标签取特定值的数据项进行处理,如改写或剔除,降低数据的冗余度,以提高训练后集成学习类算法模型的泛化性能;其次,通过对非数值型数据标签的编码转换、算数平均值计算、平均绝对偏差计算三个步骤,将非数值型数据标签转换为离散的数值型标签,以提高数据集中数据标签的可用量;最后,通过对离散化处理后的非数值型数据标签、连续数值型数据标签进行归一化处理,进一步降低了不同数据标签中心值的数量级差异,以提高训练后集成学习算法模型的分类精度。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着本发明专利的更全面理解,本发明专利的其它目的及结果将更加明白及易于理解。在附图中:
图1为基于D-N的工业互联网入侵检测数据集处理算法的算法流程图;
图2为使用基于D-N的工业互联网入侵检测数据集处理算法对KDD99系列数据集中kddcup.data_10_percent.gz数据集处理后,使用集成学习中的CART-AMV算法进行训练后数据标签自重要性系数的统计图;
图3为图2中数据标签自重要性系数大于0.6的数据标签中,经基于D-N的工业互联网入侵检测数据集处理算法处理过的数据标签的分布图。
具体实施方式
(1)输入需要处理的数据集D,遍历数据集D的全部数据标签l1、l2、…ln。
(2)根据对数据集D数据标签的遍历结果,建立表头与数据集D数据标签顺序、名称完全一致的空表E,即数据清洗池。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111202373.3/2.html,转载请声明来源钻瓜专利网。