[发明专利]电力设备绝缘状态数据处理方法在审
申请号: | 202011384232.3 | 申请日: | 2020-12-01 |
公开(公告)号: | CN112559739A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 黄雪莜;熊俊;桑成磊;张宇;余伟洲;张浩宁;郑佳滨 | 申请(专利权)人: | 广东电网有限责任公司广州供电局 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06Q50/06 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 陈金普 |
地址: | 510620 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力设备 绝缘 状态 数据处理 方法 | ||
本申请涉及一种电力设备绝缘状态数据处理方法。该方法包括:获取电力设备绝缘状态文本数据,并对电力设备绝缘状态文本数据进行命名实体的识别及提取,得到实体词汇;对实体词汇进行共指消解处理,确定最终实体库;将最终实体库中实体词汇间的关联关系进行分类,得到分类后数据;对分类后数据进行规范化处理,输出用于导入图数据库的规范化数据。采用本方法能够减少数据处理过程的人为工作量,具有良好的应用性,大大增加电力设备绝缘状态数据的处理效率。
技术领域
本申请涉及电力运维管理技术领域,特别是涉及一种电力设备绝缘状态数据处理方法。
背景技术
局部放电是导体间绝缘仅被部分桥接的电气放电,发生在内部存在绝缘故障的电力设备中。局部放电会加速电力设备内部的绝缘劣化,影响电力系统的安全稳定运行,对局部放电的相关检测与研究意义重大。在变电站现场局部放电检测过程中,通常以检测报告的形式对设备状态进行记录,会积累大量非结构化的电力设备绝缘状态数据。
目前电网中的数据呈现出种类多、规模大、关联性强的特点,对数据处理的技术也有了更高的要求。面对种类繁多的非结构化数据,传统的关系型数据库在处理复杂关系时暴露出了速度慢的先天劣势。由于其利用关联表存储实体之间的关系,当实体数量增多、关系复杂时,关系型数据库的效率将大大下降,也会导致很大的内存消耗。并且关系型数据库的数据可扩展性与共享性较差。由于文本数据量大,在处理文本数据中包含的信息时也会产生大量人工成本。
在实现过程中,发明人发现传统技术中至少存在如下问题:目前对电力设备绝缘状态信息的存储主要是使用传统的关系型数据库,通过关联表存储各个实体时间的关系,需要通过人工对数据中心内积累的电力设备绝缘状态文本数据进行整理,进而将数据导入关系型数据库中,处理效率非常低。
发明内容
基于此,有必要针对上述技术问题,提供一种电力设备绝缘状态数据处理方法,包括:
获取电力设备绝缘状态文本数据,并对电力设备绝缘状态文本数据进行命名实体的识别及提取,得到实体词汇;
对实体词汇进行共指消解处理,确定最终实体库;
将最终实体库中实体词汇间的关联关系进行分类,得到分类后数据;
对分类后数据进行规范化处理,输出用于导入图数据库的规范化数据。
在其中一个实施例中,电力设备绝缘状态文本数据为非结构化文本数据;
对电力设备绝缘状态文本数据进行命名实体的识别及提取,得到实体词汇的步骤,包括:
将电力设备绝缘状态文本数据转化为文本形式并进行脚本化处理,得到待处理数据;
基于辅助词典,采用预设统计模型对待处理数据进行文本分词及停用词的删除,得到分词结果;
筛查分词结果,得到实体词汇。
在其中一个实施例中,预设统计模型包括隐马尔可夫模型;辅助词典包括以下词典中的任意一种或任意组合:电力系统专业词典、停用词词典以及常用词词典。
在其中一个实施例中,对实体词汇进行共指消解处理,确定最终实体库的步骤,包括:
依据预设词向量维度,确认各实体词汇的词向量;
获取实体词汇的各乘法结果;乘法结果为实体词汇的词向量与另一实体词汇的词向量进行归一化后相乘得到;
对各乘法结果的进行排序,并根据排序的结果确定实体词汇的近义词;
筛选并删除各近义词中的同义词汇,更新各实体词汇的词向量,并得到最终实体库。
在其中一个实施例中,关联关系包括包含关系、实例关系、属性关系以及无关系中的一种或多种;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司广州供电局,未经广东电网有限责任公司广州供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011384232.3/2.html,转载请声明来源钻瓜专利网。