[发明专利]用于综合管廊领域的实体信息抽取及知识图谱构建方法有效
申请号: | 202010701527.2 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111897914B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 朱安安;邱彦林;陈尚武 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/211;G06F40/295 |
代理公司: | 杭州易中元兆专利代理有限公司 33341 | 代理人: | 叶卫强 |
地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 综合 领域 实体 信息 抽取 知识 图谱 构建 方法 | ||
1.一种用于综合管廊领域的实体信息抽取及知识图谱构建方法,其特征在于,包括如下步骤:
步骤(1)、数据采集:
基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据,这些数据包括已有相关设施设备的结构化数据,以及通过爬虫在相关政府网站、综合管廊类网站、施工相关网站采集的综合管廊相关文档信息;这些综合管廊相关文档信息包括规划类文档信息、设计文档、施工文档、法律法规、政策标准、期刊、专利、报告、百科以及相关新闻;获取的数据通过收集、清洗、分析、汇总、入库工作后形成综合管廊网络知识库;
步骤(2)、数据标注训练:
根据上述步骤(1)采集的数据信息,选取部分数据作为训练集进行标注训练,建立NLP模型;
通过人工筛选标注的方式进行标注,作为训练数据;
在人工标注过程中,对管廊行业相关词进行特殊标注以便后续可根据词性抽取实体,取“隧道”的英文“tunnel”的前三个字母“tun”作为管廊相关词的特殊词性,方便与其他词性进行区分;
确定各个实体的属性分类,在考虑了管廊的特性后暂规划的实体属性有包含名词解释、实体设计、实体施工、实体运维要求、优缺点在内的共11种属性以及父、子关系从属的上下级关系;
运用BERT模型对标注数据进行训练,最后用训练好的模型对所有文档进行词性标注;
步骤(3)、实体属性分类:
建立句子属性分类模型,对符合三元组抽取的句子进行实体属性分类,得到该被分析句子所包含实体的属性为哪一种;
步骤(4)、实体抽取:
建立基于语义角色和依存句法关系的三元组抽取模型,将综合管廊数据通过预设模型抽取相关的实体,并分别抽取所述实体的基本属性及实体之间的关系;其中抽取的实体包括实体名称、基本属性以及所属文档id;
步骤(5)、数据存储:
根据所述三元组抽取模型,将获取的所述实体的属性及实体间逻辑关系进行整合,去除相似及重复数据,消除矛盾及歧义数据,建立准确的实体连接并存储于图数据库中;
步骤(6)、知识图谱生成:
基于Neo4J图数据库将所述三元组进行存储后,通过预设算法处理图数据库中的数据,将所述实体的属性及实体关系连接按照实体-关系-实体的三元组数据用图的方式进行展现;
在步骤(4)中三元组抽取模型的抽取过程具体如下:
对每句话进行语义角色和依存句法分析,对每个词生成一个该词的数组,用以记录该词的词性、父子节点的词性及其关系;
对每个词性标注为‘tun’的词查找其是否具有语义角色关系,如存在则进入属性分类判断其属性归属,然后提取三元组,若不存在则进行依存句法分析查询;
对每个词进行查询,找出其是否具有主谓宾,动宾,定语后置,缺失宾语情况下的介宾关系、前置宾语、间接宾语中的某一情况,若存在,先对关系进行扩充,再判断该关系结构中存在几个词性为‘tun’的词,若为一个则进行属性分类,若大于一个则进行实体间的关系抽取,最终抽取出该情况下的三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010701527.2/1.html,转载请声明来源钻瓜专利网。