[发明专利]用于综合管廊领域的实体信息抽取及知识图谱构建方法有效
申请号: | 202010701527.2 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111897914B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 朱安安;邱彦林;陈尚武 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/211;G06F40/295 |
代理公司: | 杭州易中元兆专利代理有限公司 33341 | 代理人: | 叶卫强 |
地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 综合 领域 实体 信息 抽取 知识 图谱 构建 方法 | ||
本发明提供用于综合管廊领域的实体信息抽取及知识图谱构建方法,基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据,获取的数据通过收集、清洗、分析、汇总、入库等工作后形成综合管廊网络知识库;根据上述采集的数据信息,选取部分数据作为训练集进行标注训练,建立NLP模型;通过人工筛选标注的方式进行标注,作为训练数据。采用本发明的技术方案,通过对相关网站、论坛等的信息获取,得到综合管廊相关的数据资料,构建基于语义分析和属性分类的三元组抽取模型,将抽取的三元组通过图数据库的形式存储,并通过预设算法予以展示,形成综合管廊的行业知识图谱;本发明提供的技术方案还可以从综合管廊行业泛化到其他行业中。
技术领域
本发明涉及知识图谱构建技术领域,尤其是涉及用于综合管廊领域的实体信息抽取及知识图谱构建方法。
背景技术
知识图谱本质上是一种语义网络的知识库,是一种基于图的数据结构,由节点和边组成。近年来,知识图谱与自然语言处理及搜索技术的结合越来越广泛,知识图谱是关系的最有效表述方式,将不同种类的信息相连接从而得到一个实体之间的关系网络,提供了从“关联关系”的角度去分析问题的方式。
现有技术的缺陷和不足:目前,由于综合管廊行业起步较晚,知识图谱在综合管廊行业的应用还是一片空白,而管廊行业复杂的设计施工以及各个管网的相互合作却更需要这种基于关系的知识网络来帮助人们进行更加完善系统的规划建设。鉴于此,需要一种或多种方法针对管廊这一特定行业进行实体抽取与知识图谱的建立。
发明内容
本发明要解决的问题是综合管廊领域实体关系抽取与知识图谱体系空白的问题,为解决上述技术问题,本发明提供了一种用于综合管廊领域的实体信息抽取及知识图谱构建方法,用以构建更为完善的综合管廊的关系图谱。
为实现上述目的,本发明提供了一种用于综合管廊领域的实体信息抽取及知识图谱构建方法,包括如下步骤:
步骤(1)、数据采集:
基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据,这些数据包括已有相关设施设备等的结构化数据,以及通过爬虫在相关政府网站、综合管廊类网站、施工等相关网站采集的综合管廊相关文档信息;这些综合管廊相关文档信息包括规划类文档信息、设计文档、施工文档、法律法规、政策标准、期刊、专利、报告、百科以及相关新闻等;获取的数据通过收集、清洗、分析、汇总、入库等工作后形成综合管廊网络知识库;
步骤(2)、数据标注训练:
根据上述步骤(1)采集的数据信息,选取部分数据作为训练集进行标注训练,建立NL P模型;
通过人工筛选标注的方式进行标注,作为训练数据。
需说明:在人工标注过程中,对管廊行业相关词进行特殊标注以便后续可根据词性抽取实体,取“隧道”的英文“tunnel”的前三个字母“tun”作为管廊相关词的特殊词性,方便与其他词性进行区分,;
确定各个实体的属性分类,在考虑了管廊的特性后暂规划的实体属性有包含名词解释、实体设计、实体施工、实体运维要求、优缺点等在内的共11种属性以及父、子关系从属的上下级关系;
运用BERT模型对标注数据进行训练,最后用训练好的模型对所有文档进行词性标注;
步骤(3)、实体属性分类:
建立句子属性分类模型,对符合三元组抽取的句子进行实体属性分类,得到该被分析句子所包含实体的属性为哪一种;
步骤(4)、实体抽取:
建立基于语义角色和依存句法关系的三元组抽取模型,将综合管廊数据通过预设模型抽取相关的实体,并分别抽取所述实体的基本属性及实体之间的关系;其中抽取的实体包括实体名称、基本属性以及所属文档id;
三元组抽取模型的抽取过程具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010701527.2/2.html,转载请声明来源钻瓜专利网。