[发明专利]电网设备分词词典和故障案例库构建方法有效
申请号: | 202110029159.6 | 申请日: | 2021-01-11 |
公开(公告)号: | CN112732934B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 杨祎;秦佳峰;闫丹凤;秦晔;辜超;林颖;白德盟;郑文杰;刘萌;朱庆东;李杰;朱文兵;朱孟兆 | 申请(专利权)人: | 国网山东省电力公司电力科学研究院;北京邮电大学;国家电网有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/33;G06F40/211;G06F40/242;G06F40/247;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 支文彬 |
地址: | 250003 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电网 设备 分词 词典 故障 案例 构建 方法 | ||
一种电网设备分词词典和故障案例库构建方法,构建了电网领域分词词典,然后对故障案例数据进行格式转换、分词等预处理,然后运用多种技术手段,从文本数据中分析生成结构化电网设备故障案例、特征标签、关键词云、关联规则等信息。为上述信息设计关系型数据库Schema,以报告为主键,将上述文本信息和预处理中保留的图片、作者等信息一起入库,形成电网设备故障案例库。提升了电网领域文本的分词准确性,结构化的案例数据库使根据案例内容的检索更为准确,将故障案例数据库中的特征标签作为项集,整理挖掘故障的有效关联规则,可用于故障预警,填补了电网领域文本分析技术应用的空白。提升了电网领域语料的应用价值,降低了查阅成本。
技术领域
本发明涉及产业数据与互联网信息化技术领域,具体涉及一种电网设备分词词典和故障案例库构建方法。
背景技术
随着移动互联网、物联网、人工智能、深度学习等智能技术的发展,其在电力领域中的应用也越来越普遍,建设智能电网,实现“电力流、信息流、业务流”的高度一体化融合是技术发展不可或缺的一环。在电力领域,长年积累的各类文本数据,尤其是电网设备故障案例的研究价值很高,可以在实际的设备检修工作中提供建议和经验。由于其检修场景的复杂性和不确定性,如何基于电力领域文本数据构建电网分词词典和故障案例库是一个难以解决的问题。
目前一些自然语言处理技术已经在中文电网文本领域得到一些应用,包括:基于中文分析技术建立电网领域词典、基于文本分类技术对缺陷文本的等级进行分类、基于字符串匹配评价并提升缺陷文本的质量等等。这些应用虽然各有所长,但存在着单个技术应用面窄、对文本数据挖掘不深、数据规模不足、没有针对检修决策场景等问题。
发明内容
本发明为了克服以上技术的不足,提供了一种针对电网设备故障案例文本数据存在的检索浏览效率低、关联信息挖掘不足以及检修决策支撑不足等问题,从数据预处理、数据挖掘、数据持久化、数据应用等方面出发,提出了一个良好的解决方案,设计并实现电网设备分词词典和故障案例库构建方法。
本发明克服其技术问题所采用的技术方案是:
一种电网设备分词词典和故障案例库构建方法,包括如下步骤:
a)基于命名实体识别算法建立及扩充电网领域词典;
b)对电网设备故障缺陷案例文本进行预处理,所述预处理包括格式转换、去标号、分词;
c)基于自然语言处理方法提取文本数据中的状态量、检修流程和描述语句信息,获得结构化的电网设备故障案例;
d)基于结构化的电网设备故障案例,通过连续型特征分箱、关键词计算TF-IDF值的方法生成文本的特征标签和关键词云;
e)基于特征标签与故障进行关联规则分析,形成案例分析关联规则库;
f)将结构化的电网设备故障案例与特征标签、关键词云、关联规则库构建电网设备故障案例库。
进一步的,步骤a)包括如下步骤:
a-1)从电网领域文献、标准和行业导则中获取领域词汇;
a-2)将文本中非法字符进行剔除,对文本利用字+边界的方式进行序列标注,将文本转换为BERT-BiLSTM-CRF模型输入所需的数据格式,将没有识别到的实体的语句纳入测试集,将有实体标注的语句作为训练集;
a-3)将经过构造之后得到的训练集数据放入BERT-BiLSTM-CRF模型中进行模型训练,将训练好的模型在测试集上进行命名实体识别任务,得到未登录的实体作为新词;
a-4)将得到的新词进行筛选后加入到领域词典中,通过训练词向量获得词的向量表示并对其进行聚类找同义词,完成词典优化;
a-5)利用优化后的词典对测试集和数据集进行重新标注后重新划分训练集和测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司电力科学研究院;北京邮电大学;国家电网有限公司,未经国网山东省电力公司电力科学研究院;北京邮电大学;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110029159.6/2.html,转载请声明来源钻瓜专利网。