[发明专利]一种基于高阶关联挖掘的网络数据异常检测方法与系统有效
申请号: | 201910183446.5 | 申请日: | 2019-03-12 |
公开(公告)号: | CN109818971B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 高跃;王楠;赵曦滨;万海 | 申请(专利权)人: | 清华大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 北京律谱知识产权代理事务所(普通合伙) 11457 | 代理人: | 黄云铎 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 挖掘 网络 数据 异常 检测 方法 系统 | ||
1.一种基于高阶关联挖掘的网络数据异常检测方法,其特征在于,该方法包括:
步骤1,根据获取到的网络数据集合,生成离散森林,并计算所述网络数据集合中网络数据的离散值,其中,所述网络数据包括正常网络数据、异常网络数据和未标记网络数据,离散森林包括多棵离散树,离散树的构建方法包括:
将网络数据用属性集进行表示,
随机选择上一层分节点中所包含的属性集中的任一个属性作为划分准则,并从选择的所述属性的取值范围内选取一个数值作为划分点,
根据所述划分点和所述分节点中属性的取值,将本层分节点划分为左子树和右子树,
当判定所述左子树和所述右子树中的一个子树只包括一个分节点时,将该子树记作叶子节点,并在另一子树中重新随机选择划分点,进行分节点划分,直至所有分节点均被标记为叶子节点;
步骤2,根据聚类算法对所述异常网络数据进行聚类操作,生成聚类中心点,针对所述网络数据集合O,计算任一个网络数据Oi与所述聚类中心点θk的欧式距离来,计算其对应的相似值SS(Oi),对应的计算公式为:
式中,k=1,2,…,γ,γ为聚类中心点的个数;
步骤3,根据所述离散值和所述相似值,计算所述网络数据集合中所述网络数据的权值,具体包括:
步骤31,根据所述离散值和所述相似值,计算所述网络数据的得分;
步骤32,根据所述得分和得分阈值,计算所述网络数据的所述权值,所述权值的计算公式为:
式中,U(Oi)为所述网络数据Oi对应的所述权值,TS(Oi)为所述得分,β为所述得分阈值;
步骤4,根据所述网络数据的所述权值和超图模型,计算所述网络数据集合中所述未标记网络数据的标签矩阵,具体包括:
步骤41,根据所述网络数据的所述权值和所述超图模型,构建所述网络数据集合对应的第一检测模型;
步骤42,根据拉普拉斯正则化函数和代价敏感的经验损失函数,修正所述第一检测模型,生成第二检测模型;
步骤43,采用迭代算法,计算所述第二检测模型的类型矩阵,当判定所述第二检测模型收敛时,将所述类型矩阵记作所述标签矩阵;
步骤5,根据所述标签矩阵,确定所述未标记网络数据的安全类型,其中,所述安全类型包括正常型数据和异常型数据。
2.一种基于高阶关联挖掘的网络数据异常检测系统,其特征在于,该系统包括:离散值计算单元,相似值计算单元,权值计算单元,标签矩阵计算单元以及类型确定单元;
所述离散值计算单元用于根据获取到的网络数据集合,生成离散森林,并计算所述网络数据集合中网络数据的离散值,其中,所述网络数据包括正常网络数据、异常网络数据和未标记网络数据,离散森林包括多棵离散树,离散树的构建方法包括:
将网络数据用属性集进行表示,
随机选择上一层分节点中所包含的属性集中的任一个属性作为划分准则,并从选择的所述属性的取值范围内选取一个数值作为划分点,
根据所述划分点和所述分节点中属性的取值,将本层分节点划分为左子树和右子树,
当判定所述左子树和所述右子树中的一个子树只包括一个分节点时,将该子树记作叶子节点,并在另一子树中重新随机选择划分点,进行分节点划分,直至所有分节点均被标记为叶子节点;
所述相似值计算单元用于根据聚类算法对所述异常网络数据进行聚类操作,生成聚类中心点,针对所述网络数据集合O,计算任一个网络数据Oi与所述聚类中心点θk的欧式距离来,计算其对应的相似值SS(Oi),对应的计算公式为:
式中,k=1,2,…,γ,γ为聚类中心点的个数;
所述权值计算单元用于根据所述离散值和所述相似值,计算所述网络数据集合中所述网络数据的权值,具体包括:得分计算模块和权值计算模块;
所述得分计算模块用于根据所述离散值和所述相似值,计算所述网络数据的得分;
所述权值计算模块用于根据所述得分和得分阈值,计算所述网络数据的所述权值,其中,所述权值的计算公式为:
式中,U(Oi)为所述网络数据Oi对应的所述权值,TS(Oi)为所述得分,β为所述得分阈值;
所述标签矩阵计算单元用于根据所述网络数据的所述权值和超图模型,计算所述网络数据集合中所述未标记网络数据的标签矩阵,具体包括:第一模型构建单元,第二模型构建单元以及判定单元;
所述第一模型构建单元用于根据所述网络数据的所述权值和所述超图模型,构建所述网络数据集合对应的第一检测模型;
所述第二模型构建单元用于根据拉普拉斯正则化函数和代价敏感的经验损失函数,修正所述第一检测模型,生成第二检测模型;
所述判定单元用于采用迭代算法,计算所述第二检测模型的类型矩阵,当判定所述第二检测模型收敛时,将所述类型矩阵记作所述标签矩阵;
所述类型确定单元用于根据所述标签矩阵,确定所述未标记网络数据的安全类型,其中,所述安全类型包括正常型数据和异常型数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910183446.5/1.html,转载请声明来源钻瓜专利网。