[发明专利]一种不良数据辨识方法在审
申请号: | 201910854363.4 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110544047A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 娄建楼;贾俊奇;曲朝阳;李燕;孙博;王蕾 | 申请(专利权)人: | 东北电力大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06K9/62;G06Q50/06 |
代理公司: | 61248 西安合创非凡知识产权代理事务所(普通合伙) | 代理人: | 杨蕾<国际申请>=<国际公布>=<进入国 |
地址: | 132000 *** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 正常数据 均方差 不良数据 算法 层次聚类算法 聚类算法 聚类运算 模型评估 统计算法 准确度 辨识 凝聚 | ||
1.一种不良数据辨识方法,其特征在于,包括以下步骤:
S1,使用凝聚层次聚类算法和真实Index的模型评估指标,确定PAM算法的初始聚类个数;
S2,使用PAM算法对正常数据进行聚类,并计算每类的均方差,得出正常数据的类均方差范围;
S3,运用间隙统计算法对待测数据进行聚类并得出结果;
S4,比较待测数据所得聚类个数与正常数据通过HC-Center聚类算法所得聚类个数是否一致,若一致即不存在不良数据,否则需计算每个类的均方差,判断其是否在正常数据的类均方差范围之内,若不在,则类中数据视为不良数据。
2.根据权利要求1所述的不良数据辨识方法,其特征在于,所述步骤
S2包括:
S201,数据集中的样本点均作为独立的类簇;
S202,对Lance-Williams公式合理选参,计算类簇间邻近度,将距离最小的两簇合并;
S203,重新计算簇中心;
S204,设置阈值,使用真实Index的模型评估指标判定聚类是否满足要求;
S205,若满足要求,进行步骤S206,否则循环执行步骤S202、S203、S204;
S206,取上述聚类所得类别数目K作为PAM算法的初始聚类个数;
S207,在数据集中随机选取K个样本点作为PAM算法各个类簇的中心样本点,并选择合理的距离公式将非中心样本点分配到最近的中心样本点所代表的类簇中;
S208,计算每个非中心样本点到各个中心样本点的距离总和(初始代价),再分别使用非中心样本点一一替换中心点并重新划簇,利用代价函数计算每轮替换总代价;
S209,若非中心样本点替代中心样本点后的代价相较未替换前的代价小,则将此非中心样本点替换中心样本点,形成新的K个中心样本点集合;
S210,重复执行步骤S208、S209,直到中心样本点集合不再发生变动;
S211,得出最终聚类结果,计算各类的均方差。
3.根据权利要求1所述的不良数据辨识方法,其特征在于,所述不良
数据辨识方法还包括:
针对正常数据集,首先为 Lance-Williams公式选参,然后进行凝聚层次聚类并定义阈值,将真实Index的模型评估指标运用于聚类后的结果并与阈值进行比较,若不满足阈值要求,则重复上述步骤,否则将得到的类别数目K作为下一步PAM算法的初始聚类个数;随机选取K个聚类中心并划归类簇,计算各点到K个中心点的初始代价,使用代价函数计算各个非中心样本点替换每个中心样本点的总代价并进行中心样本点与非中心样本点的替换,终止条件为中心样本点不再发生更替,得出聚类结果后计算每类的均方差;与此同时,对待测数据进行归一化预处理,得到误差平方数据;产生F组参考分布数据集,设置初始聚类个数K值为1并对待测数据集和参考分布数据集分别进行迭代聚类,计算待测数据的聚类离散度和参考分布数据集相对应的的期望值最终得出间隙值;最后计算各组参考分布数据集产生的的标准差和的模拟误差;若小于,则令K=K+1再次循环间隙统计算法中的步骤;若大于等于,则对此时的K值与正常数据的HC-Center聚类算法得出的聚类个数进行对比,若两者相等,则待测数据中不含不良数据,否则计算每个类的均方差,判断其是否在正常数据聚类的均方差范围之内,若不在,则判定该类中数据为不良数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北电力大学,未经东北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910854363.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:湿地生态系统稳定性评估方法和系统
- 下一篇:一种商业生态链平台及其运作方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理