[发明专利]一种对质量较差电网设备缺陷文本的质量提升方法有效
申请号: | 201810597110.9 | 申请日: | 2018-06-11 |
公开(公告)号: | CN108874984B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 王慧芳;邵冠宇;何奔腾 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/289;G06F40/216;G06F40/194;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 忻明年 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 质量 较差 电网 设备 缺陷 文本 提升 方法 | ||
本发明提出了一种对质量较差电网缺陷文本的质量提升方法。本发明首先,针对历史缺陷文本中质量较差的文本,利用中文文本相似度计算中的潜在狄利克雷分布模型,结合国家电网公司的输变电一次设备缺陷分类标准,进行修正以提升质量;然后,针对新录入文本,利用文本质量检测方法进行质量问题提示,利用词向量映射方法给出修正建议,保证新录入缺陷文本的质量。最后,结合实例对修正前后的缺陷文本进行质量对比,对修正前后的缺陷文本利用机器学习和深度学习分类方法进行按缺陷等级的分类,验证对质量较差缺陷文本质量提升方法的有效性。本发明从源头上规范了缺陷文本、保证了缺陷文本的质量,为缺陷文本挖掘提供了更为可靠准确的文本数据。
技术领域
本发明属于电力系统领域,具体地说是一种对质量较差电网设备缺陷文本的质量提升方法。
背景技术
随着智能电网建设的深入推进,电力系统各个环节产生了海量的多源异构数据,以文本、音频、图像为代表的非结构化数据增长最为迅速。其中描述电网设备缺陷的文本,蕴含着与设备及电网安全最为密切的信息,受到了技术和管理人员的重视,比如为掌握缺陷规律或设备质量情况,对缺陷进行各种视角的分类和统计。由于人工对缺陷文本进行分类和统计,工作量大、效率低,结果依赖于人工主观经验,如何提高缺陷文本的挖掘效率是需要解决的问题。
目前,自然语言处理技术日益成熟,利用机器学习方法或者深度学习方法对中文文本进行挖掘已可实现。实际的电网设备缺陷文本常常存在一些各种原因造成的不规范问题,如描述不完整、有歧义等,若将这些存在质量问题的文本作为有效文本进行挖掘,会给挖掘结果带来一定偏差。因此需要一种对质量较差的文本进行质量提升的方法,为电网设备缺陷文本挖掘提供有质量保证的文本。
与电网的结构化数据挖掘研究相比,非结构化的文本数据挖掘研究还相对较少。目前,国外有学者通过数据挖掘手段对电网历史故障文本进行了研究,对文本中包含的缺陷进行了统计,但研究对象是具有较强规律的故障工单。国内对电网文本的挖掘大部分针对自动生成的、具有很强规范性的操作票。电网设备缺陷文本由于语义更为复杂,进行文本挖掘更具难度。一些研究针对电网设备缺陷文本,进行了不同目的的挖掘,然而共性的问题是挖掘结果受缺陷文本质量影响较大。对于文本质量,目前尚没有提升文本质量的方法公开发表。
发明内容
本发明所要解决的技术问题是针对由于电网设备缺陷文本质量存在的问题给电网文本挖掘结果带来的偏差,提出一种对质量较差的电网设备缺陷文本质量提升的方法。
本发明解决技术问题所采取的技术方案为:
首先,利用自然语言处理领域的中文文本相似度计算方法,结合国家电网公司输变电一次设备缺陷分类标准(简称“标准”),从标准中找出与实际缺陷最相似的标准表述形式。将缺陷文本按缺陷等级分类,结合缺陷文本质量检测方法找出的缺陷文本存在的问题,对质量较差的历史缺陷文本进行修正,实现对历史缺陷文本质量的提升。利用深度学习领域的一种文本表示模型,词向量映射(word2vec)模型,结合缺陷文本质量检测方法得到的缺陷文本在不同指标上的得分,给出一条新录入缺陷文本的具体修正建议,实现对新录入缺陷文本的质量保证。
然后,对修正前后的缺陷文本进行比较,并利用机器学习和深度学习中已有的不同文本分类方法对缺陷文本按缺陷等级进行分类,通过修正前后质量检测结果和分类准确率验证质量提升方法的有效性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810597110.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种计算机数据检索方法
- 下一篇:智能变电站SCD文件的分布式解析配置方法