[发明专利]一种水务领域知识图谱的构建方法在审
申请号: | 202111011676.7 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113918725A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 丛小飞;左翔;刘威风;赵杏杏;刘修恒 | 申请(专利权)人: | 南京中禹智慧水利研究院有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/901;G06F16/906 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 何磊 |
地址: | 210012 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 水务 领域 知识 图谱 构建 方法 | ||
1.一种水务领域知识图谱的构建方法,其特征在于,包括以下步骤:
步骤1:对水务数据进行顶层知识图谱构建和知识抽取之前,对数据进行校验和去噪音;
步骤2:基于neo4j平台构建水务领域知识图谱顶层概念模型,将其作为水务领域知识图谱的骨架;
步骤3:从行业标准、各类数据库、政府职能部门网站、水文水环境监测网站、公众网站、物联网数据和遥感影像等异构数据源中,进行实体抽取和关系抽取;
步骤4:在数据抽取基础上,将具有相同指代的实体三元组数据挂接同一个概念下,通过计算概念实体之间的相似度,完成实体对齐;所述实体三元组数据为包括实体-属性-属性值、实体-关系-实体两种形式的三元组;
步骤5:基于neo4j平台的图数据库完成知识的存储。
2.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤1中,具体包括以下内容:
(1)对文本数据类型中的缺失值、异常值、重复值、脏数据进行清洗;
(2)对非文本数据中表格和图片记录的数据进行处理,使用人工提取或图片转文字软件,将上述数据整理形成文本数据;
(3)对数据中存在的随机误差进行过滤;
(4)将文本数据中的句子以单句短语为单位整理好成为可以使用的语料。
3.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤2中,具体包括以下内容:
对水务对象进行分级分类,在水务领域概念下划分出地理位置概念和对象设施概念两个子类;
其中,地理位置概念包含的领域类是对一片地理区域的定性结果,对象设施概念包含的领域类则是天然存在或者人为构筑的水务对象;
对于地理位置概念,根据其所描述的地理位置区域是否具有实际功能进一步分为描述性地点和功能性地点;
对于对象设施概念,则根据是自然存在或人为建造进一步区分为自然对象与工程设施。
4.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤3中,数据源类型分为以下三类:
(1)结构化数据;(2)半结构化数据;(3)非结构化数据。
5.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤3中,结构化数据主要采用如下方式抽取:
(a1)连接数据库;
(a2)进行基本数据初始化操作;
(a3)构造SQL语句并进行数据查询;
(a4)进行数据类型,结构和属性转换;
(a5)判断数据是否存在于neo4j数据库中,如果存在返回(a3)步,否则进行(a6)步的数据存储;
(a6)构建neo4j数据存储语句,并结合SQL语句抽取的信息确定上下位关系,创建节点;
(a7)判断SQL语句是否查询完毕,如果查询完毕,退出抽取程序,如果没有则返回(a3)步,继续构建SQL语句进行数据查询。
6.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤3中,半结构化数据主要采用如下方式抽取:
(b1)首先通过Scrapy的Engine模块打开网站,通过Spider模块发送第一个爬取请求;
(b2)Engine模块从Spider模块得到爬取链接,通过Scheduler模块以请求调度的形式进行调度;
(b3)Engine模块向Scheduler模块请求下一个需要爬取的链接,并同时将任务交给Downloader模块进行下载;
(b4)当页面下载完毕之后,Downloader模块会将下载的数据反馈到Engine模块,并交由Spider模块,对爬取的数据进行解析处理;
(b5)将解析好的数据按照指定的格式保存到文件中;
(b6)在重复(b2)到(b5)步,直到Scheduler模块没有更多的请求时,Engine模块关闭,结束数据爬取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中禹智慧水利研究院有限公司,未经南京中禹智慧水利研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111011676.7/1.html,转载请声明来源钻瓜专利网。