[发明专利]电网设备缺陷文本的信息辨识方法有效
申请号: | 201910215568.8 | 申请日: | 2019-03-21 |
公开(公告)号: | CN109977228B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 王慧芳;邵冠宇;何奔腾 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06Q10/00;G06Q50/06 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 忻明年 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电网 设备 缺陷 文本 信息 辨识 方法 | ||
本发明提出了一种电网设备缺陷文本的信息辨识方法。本发明首先,利用依存句法分析技术,基于主变缺陷文本和国家电网主变缺陷分类标准文本构建依存句法树,并结合缺陷文本的实际特点对依存句法树进行剪枝、切分和重构;然后,针对构建好的依存句法树,提出基于依存关系的树匹配算法,找出与实际缺陷对应的标准表述,辨识出缺陷文本包含的实际缺陷信息。最后,采用主变压器缺陷文本构建算例,分析本发明缺陷信息辨识方法的准确性。本发明从语义角度对缺陷文本进行分析,辨识出文本包含的精确缺陷信息,为设备的故障率建模和健康状态评价等问题提供指导。
技术领域
本发明属于电力系统领域,具体地说是一种电网设备缺陷文本的信息辨识方法。
背景技术
输变电设备在安装、调试、运行和维护阶段,积累了大量非结构化的文本数据。其中,设备缺陷文本蕴含着与设备健康状态和运行可靠性密切相关的信息。计算机若能自动从缺陷文本中辨识出设备发生的精确缺陷,就能大幅减轻人工分析缺陷文本的工作量,在设备状态监测装置不完善的情况下,为设备缺陷管理和健康状态评价提供有效的数据支撑,同时也能为设备的故障率分析、剩余寿命预测以及状态检修等研究做出更有效的指导。然而,由于实际缺陷情况的复杂性和人工记录的随意性,相较于国家电网公司给出的缺陷标准形式,实际缺陷文本存在着大量的不规范记录,给计算机自动理解和处理缺陷文本数据带来了较大困难。因此需要一种从缺陷文本中精确自动辨识缺陷信息的方法。
自然语言处理(Natural Language Processing,NLP)是计算机科学与人工智能交叉领域的一个重要研究方向。国外已有学者从在线抓取和离线记录两种数据获取方式的角度分析了电力文本挖掘意义与可行性。为了充分地挖掘缺陷文本蕴含信息,有研究从分类、统计、检索等不同视角利用卷积神经网络和知识图谱等技术对电力设备缺陷文本进行挖掘,但需要人为经验模板的介入,或者仅涉及对整条缺陷文本的处理,并未从句子内部语义的角度对文本进行精细化挖掘,难以做到设备缺陷的精确判断与辨识。有研究采用改进KNN算法分析缺陷文本,对电力设备进行健康状态评价,但仅通过缺陷等级粗略反映设备的健康状态,还无法应用于多种缺陷冗杂记录的复杂缺陷文本。
发明内容
本发明所要解决的技术问题是针对电网设备缺陷文本存在的表述问题给电网设备文本挖掘带来的困难,提出一种对电网设备缺陷文本的信息辨识方法。
本发明解决技术问题所采取的技术方案为:
本发明首先,采用自然语言处理领域的依存句法分析技术,对主变压器实际缺陷文本和国家电网主变缺陷分类标准文本分别构建依存句法树,并结合缺陷文本的实际特点以及中文篇章连贯性理论和语义框架理论,对依存句法树进行剪枝、切分和重构。然后对构建好的两类依存句法树,提出基于依存关系的树匹配算法,同时考虑节点和路径的一致性,并保证节点之间依存关系相同,找出与实际缺陷对应的标准表述,实现辨识出实际缺陷文本包含的标准缺陷信息的目标。
本发明的有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910215568.8/2.html,转载请声明来源钻瓜专利网。