[发明专利]一种基于遗传模糊聚类的系统数据异常检测方法有效
申请号: | 202010402204.3 | 申请日: | 2020-05-13 |
公开(公告)号: | CN111666981B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 田园;原野;马文;黄祖源;付谱平 | 申请(专利权)人: | 云南电网有限责任公司信息中心 |
主分类号: | G06F18/2111 | 分类号: | G06F18/2111;G06F18/2337;G06F18/2321;G06F18/241;G06N3/126 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 王娟 |
地址: | 650217 云南省*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 模糊 系统 数据 异常 检测 方法 | ||
本发明涉及一种基于遗传模糊聚类的系统数据异常检测方法,属于数据异常检测技术领域。本发明首先对系统平台采集到的数据集进行离散标准化处理,将离散标准化处理后的数据集随机化并划分成训练样本集和测试样本集。对测试样本集进行模糊聚类处理,对模糊处理后的得到的聚类中心进行遗传运算。然后得到一个最佳分类数目和对应的聚类结果集。然后对聚类结果集进行标类,获得正常数据集的各个聚类中心和异常数据集的各个聚类中心。再然后计算测试样本集中的每个样本与标类后的各个数据集聚类中心的距离,可以认为与测试样本集中的每个样本具有最小距离测度的子类即为其所属聚类,从而可以测试出测试样本集中的异常数据。
技术领域
本发明涉及一种基于遗传模糊聚类的系统数据异常检测方法,属于数据异常检测技术领域。
背景技术
随着信息技术的高速发展,基于服务的系统平台数据往往在传输过程中可能由于各种各样的原因而造成数据异常。FCM模糊聚类算法常常被应用于数据异常检测领域,然而传统的FCM模糊聚类算法容易陷入局部最优点的问题。为了解决此问题,本发明采用FCM模糊聚类算法与遗传算法结合的异常检测方法应用于系统平台数据异常检测领域,可以解决FCM算法易陷入局部最优点的问题。异常数据集往往是混合属性的特点,在处理这些具有混合属性特点的异常数据集过程中,计算量非常大,本发明针对这一特点,改进了距离测度的计算方法,将计算量大大减少。
发明内容
本发明要解决的技术问题是提供一种基于遗传模糊聚类的系统数据异常检测方法,首先考虑到系统平台提供的数据集往往是具有混合属性的特点,改进了距离测度的计算,并结合遗传算法解决了模糊聚类算法易于陷入局部最优点的问题。
本发明的技术方案是:一种基于遗传模糊聚类的系统数据异常检测方法,具体步骤为:
Step1:首先,对系统提供的数据集中所有数据进行标准化处理,然后对标准化处理后的所有数据分别进行随机化处理,再然后将随机化处理后的数据进行划分,最后得到训练样本集TR和测试样本集TE。
Step2:确定训练样本集TR的最大分类数Cmax与最小分类数Cmin,组成一个关于最大分类数Cmax与最小分类数Cmin的集合c={Cmin,Cmin+1,...,Cmax},构建混合属性数据集的模糊聚类模型和遗传算法模型,将最大分类数Cmax与最小分类数Cmin的集合c传递给这些模型,得到一个关于目标函数值的集合OFV,集合中OFV的每一个值都对应一个聚类数目,将这些聚类数目组成一个集合,设为CN。
Step3:通过Step2获得的集合OFV和集合CN,结合集合OFV中最小元素集合和方差分析,来分析得到最佳分类数目C*。
Step4:将Step3中获得的最佳分类数目C*,生成相对应的聚类结果记为C,而Ci,i=1,2,...,C*,其中Ci表示第i类聚类结果集合,以及相对应的聚类中心PCC,而PCCi,i=1,2,...,C*,其中PCCi表示第i类中心。
Step5:将Step4获得的聚类结果C进行标类,标类的目的是在结果中区分出状态正常的聚类和异常的聚类;
区分原则为:
设定一个比例系数η,0<η<1,如果则认为是正常聚类结果类,否则为异常聚类结果类。
其中,Count(Ci)表示聚类结果C中第i类聚类结果集合的数量,Count(TR)表示训练样本集的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司信息中心,未经云南电网有限责任公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010402204.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种整圈环形内扣位的内抽芯脱模机构
- 下一篇:车辆及其制动方法和系统