[发明专利]基于D-N的工业互联网入侵检测数据集处理方法在审

专利信息
申请号: 202111202373.3 申请日: 2021-10-15
公开(公告)号: CN113934719A 公开(公告)日: 2022-01-14
发明(设计)人: 刘明山;石伟诚;周原;韦晓宇 申请(专利权)人: 吉林大学
主分类号: G06F16/215 分类号: G06F16/215;G06F16/2458;G06F16/28;G06N20/20
代理公司: 长春市恒誉专利代理事务所(普通合伙) 22212 代理人: 李荣武
地址: 130012 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 工业 互联网 入侵 检测 数据 处理 方法
【说明书】:

本发明公开了一种基于D‑N的工业互联网入侵检测数据集处理方法,该算法改进了现有集成学习类算法解决工业互联网入侵检测问题时,数据集中的冗余数据项导致训练出的集成学习模型泛化性能差、数据集中某些类型的数据标签不能被集成学习的个体学习器识别、数据集中某些类型的数据标签被集成学习的个体学习器错误识别导致训练出的集成学习模型检测精度低的上述问题,为使用集成学习类算法解决工业互联网入侵检测问题时,训练数据集、验证数据集的处理提供了新的方法。

技术领域

本发明涉及数据集的处理、数据清洗、离散-归一化数学方法(D-N算法)、集成学习类算法的分类及其应用领域,尤其是用于实现工业互联网入侵检测的集成学习类算法中基于CART-AMV算法的KDD99数据集的处理中。

背景技术

集成学习类算法的出现,改进了机器学习中复杂繁琐的单一算法流程,通过构建大量算法简单、种类多样的个体学习器,可以有效地降低机器学习的算法复杂度和代价开销,这是集成学习类算法的优点。其缺陷是在对个体学习器的训练中,强依赖于使用的训练数据集。训练数据集数据结构的好坏直接影响了训练后个体学习器泛化性能的优劣。在工业互联网的入侵检测的集成学习类算法解决分类问题的应用背景下,已经有了诸如KDD99、KDD-NSD、UNSW-NB15等大型数据集,其数据量庞大、数据真实、入侵攻击类型覆盖全面。但是存在着数据大量冗余、数据类型不统一、部分数据标签不能被个体学习器识别的缺陷。

发明内容

本发明是为了解决集成学习算法对数据集数据结构的高要求,以及工业互联网入侵检测数据集缺失的问题而提出的,基于D-N的工业互联网入侵检测数据集处理算法通过数据清洗、数据离散化、数据归一化三个步骤实现对数据集的数据分析与整理。本发明可以应用于各种类型和规模的数据集。

实现本发明目的的具体技术方案是:

首先,通过构建数据清洗池,对某些数据标签取特定值的数据项进行处理,如改写或剔除,降低数据的冗余度,以提高训练后集成学习类算法模型的泛化性能;其次,通过对非数值型数据标签的编码转换、算数平均值计算、平均绝对偏差计算三个步骤,将非数值型数据标签转换为离散的数值型标签,以提高数据集中数据标签的可用量;最后,通过对离散化处理后的非数值型数据标签、连续数值型数据标签进行归一化处理,进一步降低了不同数据标签中心值的数量级差异,以提高训练后集成学习算法模型的分类精度。

附图说明

通过参考以下结合附图的说明及权利要求书的内容,并且随着本发明专利的更全面理解,本发明专利的其它目的及结果将更加明白及易于理解。在附图中:

图1为基于D-N的工业互联网入侵检测数据集处理算法的算法流程图;

图2为使用基于D-N的工业互联网入侵检测数据集处理算法对KDD99系列数据集中kddcup.data_10_percent.gz数据集处理后,使用集成学习中的CART-AMV算法进行训练后数据标签自重要性系数的统计图;

图3为图2中数据标签自重要性系数大于0.6的数据标签中,经基于D-N的工业互联网入侵检测数据集处理算法处理过的数据标签的分布图。

具体实施方式

(1)输入需要处理的数据集D,遍历数据集D的全部数据标签l1、l2、…ln

(2)根据对数据集D数据标签的遍历结果,建立表头与数据集D数据标签顺序、名称完全一致的空表E,即数据清洗池。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111202373.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top