[发明专利]命名实体关联关系的更新方法、系统及存储介质在审
申请号: | 202011068559.X | 申请日: | 2020-09-30 |
公开(公告)号: | CN114428781A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 唐先明;王晓丽;陈新荣;邓达康;韩宝东;郭攀红;黄希彧;张德浩 | 申请(专利权)人: | 中国石油化工股份有限公司;中国石油化工股份有限公司石油勘探开发研究院 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/2458;G06F16/25;G06F16/28;G06F40/211;G06F40/295;G06F40/30 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 吴大建;金淼 |
地址: | 100728 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 关联 关系 更新 方法 系统 存储 介质 | ||
本公开涉及关联关系更新技术领域,特别地涉及一种命名实体关联关系更新方法、系统、可读存储介质,方法包括:命名实体关联关系训练集生成与更新步骤S100,对原始语句中的命名实体进行标注而生成训练语句,基于不同文档的所有训练语句生成训练集;命名实体关联关系的统计语义规则挖掘步骤S200,从所述训练集中挖掘与已知的命名实体关联关系对应的顺序关系模式,基于所述顺序关系模式而生成候选命名实体关联关系;命名实体关联关系的生成与修正步骤S300,将所述候选命名实体关联关系展现给用户,获取用户确认所述候选命名实体关联关系是否为可信命名实体关联关系的操作;命名实体关联关系的存储步骤S400,存储所述可信命名实体关联关系。
技术领域
本公开涉及关联关系更新技术领域,特别地涉及一种命名实体关联关系更新方法、系统及可读存储介质。
背景技术
在油气勘探等行业,积累了大量的文本、图像资料及GIS记录条目等不同类型的数据资料。随着这些行业的业务进行,各个不同部门的业务研究人员也正在不同的信息系统里持续积累着大量的文本、图像资料及数据库、GIS记录条目,如何有效地整合、组织这些信息,如何将研究人员的研究报告或论文提出的新知识、新论点及时整合到知识图谱,尤其是如何将一些新发现的命名实体及其间的关系及时整合到知识图谱,并自动或半自动地更新到结构化的数据库(含GIS系统)里,是当前文本信息处理领域面临的一大挑战。
本公开所述的勘探等专业领域的命名实体的关系更新方法,是基于本体论(Ontology),通过自然语言处理(Natural Language Processing,NLP)方法从非结构化的文本信息中提取出结构化的命名实体之间的关系的方法。
在计算机科学领域,Ontology核心意思是指一种模型,用于描述由一套对象类型(概念或者类)、个体(对象实例)、属性以及关系类型所构成的世界。一般来说,人们所普遍期望的一点就是,本体之中模型的那些特征应当非常类似于相应的现实世界。
具体到勘探等领域,Ontology就是在建立一套勘探领域的多层级的概念(类)体系的归属,并建立每个层级下的归属于该抽象类的个体(实例)。在此基础上,建立类及个体的属性描述(它们所可能具有的属性、特征、特性、特点和参数)及某种关联关系。最终,勘探等专业领域的Ontology建立的是一整套的类间、个体对象间、以及类与个体对象间的关系。此外,完整的Ontology体系,还包括公理、规则及事件。
在基于Ontology的知识图谱的建立中,通常以命名实体(Named Entity)统一表述个体(对象实例)及其对象类型(抽象出的概念类)。通过对命名实体的识别、以及命名实体的属性及命名实体间关联关系的发现等手段而建立及更新知识图谱。
现有的知识图谱及命名实体关联关系的建立,一般基于一些通用的方法。例如通过共现分析、引文分析、多元统计分析、社会网络分析等方法,并通过一系列可视化方法展现。
在一些技术方案中,提出了一种葡萄藤式医学知识构建方法和系统,该方法包括以下步骤:
1)按多个医学类别构建葡医学知识数据库;
2)在所述的多个医学类别下分别构建多个目录、多个知识单元及在所述的知识单元下构建多个知识信息单元,形成第一知识群;
3)判断是否需要继续添加医学知识;
4)在所述的多个目录下分别构建多个子目录、多个知识子单元及在所述的知识单元下构建多个知识信息子单元;形成第二知识群。
该方案将各类医学知识进行有效的交互参照,形成深层次的跨库应用,力图将静态的、独立的知识因子动态地、多维地组织在一起,全面而直观地揭示各类医学知识的网状关系。该方案基于人工添加知识点(其中多数是命名实体关联关系),然而该方案的规范性不强,且实际操作成本过高,因此该方案难以普及。
在一些技术方案中,提出了一种基于维基百科构建概念型知识地图的方法,该方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油化工股份有限公司;中国石油化工股份有限公司石油勘探开发研究院,未经中国石油化工股份有限公司;中国石油化工股份有限公司石油勘探开发研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011068559.X/2.html,转载请声明来源钻瓜专利网。