[发明专利]一种基于机器学习的电网设备档案数据纠错方法在审

申请号：	201811187606.5	申请日：	2018-10-12
公开（公告）号：	CN109472293A	公开（公告）日：	2019-03-15
发明（设计）人：	龙婧;刘伟;徐文峰	申请（专利权）人：	国家电网有限公司;湖北华中电力科技开发有限责任公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06Q10/00;G06Q50/06
代理公司：	武汉楚天专利事务所 42113	代理人：	孔敏
地址：	100031 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于机器学习的电网设备档案数据纠错方法，对现有的大量数据进行处理、挖掘其中隐藏的规律，自动生成判断规则，基于这些规则对数据进行自动诊断，能够大大降低工作难度，可以为数据质量筛查、数据整改、数据治理提供一份重要的依据；本发明利用大数据技术开展数据治理，对大量数据中异常的自动诊断，并为数据的整改提供建议，能够减少数据校验工作对业务人员的强依赖性，对于完全无规则可提炼的分散型数据异常情况，也可以机器学习实现自动处理，避免人力筛查带来的复杂工作量，本发明利用大数据对数据异常问题进行归类分析，提供给数据产生方进行整改，能够从源头上降低数据问题，为数据源头整改提供参考。
搜索关键词：	档案数据电网设备基于机器数据异常数据治理自动诊断大数据筛查纠错工作难度机器学习判断规则数据产生数据问题数据校验自动处理自动生成分散型无规则归类源头工作量提炼参考学习挖掘分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于机器学习的电网设备档案数据纠错方法，其特征在于包括如下步骤：第一步：数据抽取，获取训练集：将公司保存的所有电网设备档案数据作为历史数据导入数据库中，将数据库中的历史数据作为训练集F；第二步：对训练集F进行特征提取，通过字符串拆分的方式得到特征数据集合S＝{s1,s2,s3,...,sn}；第三步：手动从特征数据集合S中挑选特征值选择作为特征向量S'，S'＝{s′₁,s′₂,s′₃…,s′_m}，其中第四步：通过TF‑IDF算法对特征向量S'加权，加权方式为特征向量中的特征值s'm在训练集F中出现的频率，记为Nm，在训练集中每条数据记录包含特征词s'm的频率为N'm，那么该特征词s'm的IDF值为因此该特征词的权重ωm可以表示为ωm＝Nm*IDF(s'm)，通过这种方式对特征向量S'中的每一个特征词进行计算权重，得到权重向量ω；第五步：通过第三步和第四步选中的特征向量和得到的特征向量的权重，对原始数据通过分布式K‑Means算法进行聚类，最终将训练集F分为k个类；第六步：针对第五步得到的聚类结果，人工验证聚类中的数据，将异常数据和误判数据选出，验证每个类中的数据误判的情况，得到数据验证的准确率，对所有的类中的准确率求取平均值，得到模型的准确率，然后判断模型准确率是否达到预期的阈值，如果没有则转到第三步，重新选择特征值、特征向量、确定权重，直到准确率达到预期的阈值；第七步：模型确定后，在使用阶段将数据聚类，然后将每一类的异常数据返回给用户，并且将正常数据推荐给用户，由用户参考修改。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;湖北华中电力科技开发有限责任公司，未经国家电网有限公司;湖北华中电力科技开发有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811187606.5/，转载请声明来源钻瓜专利网。

上一篇：一种图像的情感分类方法、存储介质和服务器
下一篇：一种城市水体的识别方法、装置、储存介质及设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于机器学习的电网设备档案数据纠错方法在审

专利文献下载