[发明专利]一种实体关系的抽取方法和装置在审
申请号: | 202010519899.3 | 申请日: | 2020-06-09 |
公开(公告)号: | CN111814476A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 胡洪兵;李健;武卫不 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 抽取 方法 装置 | ||
本发明提供了一种实体关系的抽取方法和装置,涉及数据处理和数据挖掘技术领域。本发明提供的实体关系的抽取方法和装置,在从包含第一实体的目标语料中抽取与第一实体之间具有预设逻辑关联的第二实体和实体关系文本时,首先预先训练得到实体关系抽取模型,再将第一实体和目标语料输入到实体关系抽取模型中,实体关系抽取模型就可以输出第二实体和实体关系文本,从而得到包含第一实体、实体关系文本和第二实体的实体关系三元组,操作简单,耗时少,同时,由于实体关系抽取模型可以根据大量的开放领域的样本语料进行预先训练,使得可以在开放领域中抽取实体关系三元组,而不受应用领域的限制,进一步的,也提高了抽取实体关系三元组过程的准确度。
技术领域
本发明涉及数据处理和数据挖掘技术领域,特别是涉及一种实体关系的抽取方法和装置。
背景技术
信息抽取是从非结构化的纯文本中挖掘出实体对,以及实体对之间关系,得到实体-关系-实体类型的结构化数据,广泛的应用于构建知识图谱和大数据分析等下游任务。
目前,从纯文本中提取实体-关系-实体结构的实体关系三元组信息的过程,主要为对纯文本中包含的语句进行分词,将分词得到的词语进行词性分析和标注,进一步基于词性分析再对语句进行语法和句法分析,完成对该语句的语义分析,确定该语句中各个分词之间的关系,并结合该纯文本所属领域的经验规律,确定从纯文本语句中提取实体关系三元组信息的规则,进而从该语句中提取出包括主实体和副实体的实体对,以及主实体和副实体之间的实体关系。
但是,在目前的方案中,由于确定提取实体关系三元组规则的过程中需要对待分析的纯文本语句进行分词、词性分析、语法和句法分析,并依据相关的经验规律,导致确定纯文本中实体关系三元组的过程复杂,错误率较高,从而降低了提取过程的准确度。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种实体关系的抽取方法和装置。
依据本发明的第一方面,提供了一种实体关系的抽取方法,该方法包括:
获取第一实体和目标文本,所述第一实体为客观物体的抽象名称;
根据所述第一实体,从所述目标文本中确定目标语料,所述目标语料为包括所述第一实体的语句;
将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本,所述第二实体与所述第一实体之间具有预设逻辑关联,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句;
生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
可选的,所述得到从所述目标语料中抽取出的与所述第一实体对应的实体关系文本的步骤,包括:
在所述目标语料中,将与所述第一实体之间的文本距离小于或等于第一预设距离的词句,确定为所述实体关系文本。
可选的,所述得到从所述目标语料中抽取出的与所述第一实体对应的第二实体的步骤,包括:
从所述目标语料中,将与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,确定为所述第二实体。
可选的,所述将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本的步骤,包括:
将所述第一实体和所述目标语料输入所述实体关系抽取模型中,通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个第二实体和实体关系文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010519899.3/2.html,转载请声明来源钻瓜专利网。