[发明专利]一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具无效
申请号: | 201210189266.6 | 申请日: | 2012-06-08 |
公开(公告)号: | CN102737350A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 李锐海;刘磊;廖永力;杨晴;邓安明;高尚飞;尹福荣;邓丽林;张玉龙;邓全燕;陈达;杨远帜;陆叶 | 申请(专利权)人: | 南方电网科学研究院有限责任公司;昆明能讯科技有限责任公司 |
主分类号: | G06Q50/06 | 分类号: | G06Q50/06 |
代理公司: | 昆明大百科专利事务所 53106 | 代理人: | 何健 |
地址: | 510080 广东省广州市越*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 算法 变电 设备 缺陷 数据 自主 工具 | ||
技术领域
本发明涉及一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,尤其是能处理杂乱数据的工具
背景技术
随着电力行业的发展,输变电设备缺陷已经影响到电网的安全,为加强对输变电设备的缺陷管理,提高设备健康水平,对输变电设备缺陷数据的收集处理是一个重要环节,然而目前输变电设备缺陷数据杂乱无章,不能将输变电设备缺陷归类处理。
目前对输变电设备缺陷的管理还没有完全统一的标准方式,所以形成了大量的历史杂乱数据,人工对海量历史数据的处理需要大量的人力成本,机器学习自主学习判断可以很大减少成本,更经济,更有效。
MMSEG算法实现了前面讨论的最大匹配算法的简单和复杂形式。更进一步来说,为了消除未被复杂最大匹配算法所消除的歧义,又实现消除歧义的规则。
词频、反文档算法(TFIDF)是文档特征权值表示常用方法。该方法简单易行,通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。
支持向量机是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习的问题的新工具,它是一种新的机器学习方法,它以结构风险最小为原则,它本质上是求解凸二次规划问题,在解决小样本、非线性和高维模式识别问题中有较大优势。
发明内容
本发明的目的是提供一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,配置设定后,无需要人工干涉,自主独立的对输变电设备缺陷数据进行聚类处理,分类过程中能自我完善知识样本库,精确化分析判断能力。
为了实现上述目的,本发明提供如下技术方案:
一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,本发明特征在于,,它由数据分解器、聚类器、结果处理器依序连接组成;
其中:在数据分解器内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;
在聚类器内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;
在结果处理器内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块;
经由数据分解器把数据分解成机器能识别的单元数据,聚类器把单元数据处理归类后再还原为原始数据,结果处理器把处理结果以文件,数据库储存等已配置好的方式分发到相应目标类别;
上述的词频、反文档算法是以词、字、或更小单位为输入的计算评估方法,所以拿到数据后要先把它们分解为其能识别的单位数据,基分解方法是最大匹配算法的两种变体的中文单词识别(MMSEG)和Aho-Corasick算法实现;
本发明所述的支持向量机把对样本数据以词频、反文档算法训练的结果以文件方式记忆存储于知识库,当拿到数据时,它用训练好的方法来分类数据;
本发明步骤如下:
其数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据;具体分解过程如下:
1)其将缺陷数据分为三类:设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0~9则判断为数字数据。
2)其数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文;
3)其中文数据分解为词,其特征在于,用基于最大匹配算法的两种变体的中文单词识别(MMSEG)算法实现;
4)其英文数据分词,其特征在于,用Aho-Corasick(以下简称AC)算法实现。
3、其聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程;
1)其练识别方法以词频、反文档算法为方法基础,以支持向量机为智能学习算法,以文本样本为知识内容;
2)其记忆方法及结果训练以文件的方式存储训练结果,以供判断使用;
3)其问题分析训练后它以文件的方式存储训练结果,以供分析判断使用。
其结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司;昆明能讯科技有限责任公司,未经南方电网科学研究院有限责任公司;昆明能讯科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210189266.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种套刻偏差检查标记及其制作方法
- 下一篇:一种产品安全信息追溯系统及方法