[发明专利]一种电网知识图谱构建方法及其系统有效
申请号: | 202010727904.X | 申请日: | 2020-07-23 |
公开(公告)号: | CN111930784B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 张守田;吴淑玮;沈自虎;黄赛;王辉 | 申请(专利权)人: | 南京南瑞信息通信科技有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/28;G06F16/33;G06F16/36;G06N3/04;G06N3/08;G06Q50/06 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 钱玲玲 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电网 知识 图谱 构建 方法 及其 系统 | ||
本发明公开了一种电网知识图谱构建方法及其系统,旨在解决现有技术中电网技术领域缺乏实用、高效的知识图谱构建工具的技术问题。其包括:收集电网相关内容整理电网语料;根据电网语料构建并训练自然语言处理模型;基于自然语言处理模型进行电网知识抽取,并将抽取结果存入图结构数据库。本发明可以应有效抽取电网知识,构建电网领域的知识图谱,为后续的知识图谱应用提供支持保障。
技术领域
本发明涉及一种电网知识图谱构建方法及其系统,属于电网知识图谱技术领域。
背景技术
电网包含发电、输电和配电三大环节,整个物理结构就是一个庞大且复杂的网络,由于电网物理结构的特性,采用图数据结构创建电网数据模型是非常贴合的,而且图数据结构不存在关联外键,由关系节点之间关联,性能较传统数据结构具有巨大提升。
知识图谱是一个技术体系,包含多种技术如知识表示、知识抽取、知识推理、知识检索等等,知识图谱可用于问答系统、逻辑校核和智能搜索等场景。目前,市面上针对电网领域的知识图谱构建很少,只有阿里巴巴推出了一个电网场景知识图谱构建工具,但是该工具严重依赖电网技术专家,在使用中需要专家纠错,且只针对部分类文本数据场景,没有收集电网领域内数据,没有做相关基础语言模型训练,没有整理庞大但是精度有保障的结构化关系型数据,所以实用性相对较低。
发明内容
针对现有技术中电网技术领域缺乏实用、高效的知识图谱构建工具的问题,本发明提出了一种电网知识图谱构建方法及其系统,充分考虑电网中各类数据的情况,对电网文本类业务数据、理论知识类数据和关系型数据分别进行收集抽取,构建实用化的电网领域知识图谱。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提出了一种电网知识图谱构建方法,具体包括如下步骤:
S1、收集电网相关内容整理电网语料;
S2、根据电网语料构建并训练自然语言处理模型;
S3、基于自然语言处理模型进行电网知识抽取,并将抽取结果存入图结构数据库。
结合第一方面,进一步的,所述步骤S1具体包括如下步骤:
S11、构建专业名词类字典,所述字典包括电网机构、电网专业、问答素语、属性特征、对象关系字典;
S12、收集并整理电网理论知识类文档、电网调度类操作日志、电网调度类预案类文档和安全操作规范,生成电网文本类语料;
S13、整理电网同义词语料,确定电网领域的属性同义词和替换类同义词。
结合第一方面,进一步的,所述自然语言处理模型包括N-gram模型、LSTM+CRF模型、Word2vec模型和deepwalk模型。
结合第一方面,进一步的,所述步骤S3具体包括如下步骤:
S31、获取待处理的电网数据,将其分为结构化关系型数据和非结构化文本类数据;
S32、基于Spark处理结构化关系型数据,进行知识抽取并将抽取结果存入图结构数据库;
S33、基于自然语言处理模型处理非结构化文本类数据,进行知识抽取并将抽取结果存入图结构数据库。
结合第一方面,进一步的,所述步骤S32的具体操作如下:
S321、从结构化关系型数据中选取关系表,逐一设置每个关系表的表名和关系表别名集;
S322、选择关系表属性,设置属性名称和属性别名集;
S323、选择关系表外键,设置关系名称和关系别名集,并设置关系指向方向以及是否需要反向;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京南瑞信息通信科技有限公司,未经南京南瑞信息通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010727904.X/2.html,转载请声明来源钻瓜专利网。