[发明专利]一种实体关系的抽取方法和装置在审
申请号: | 202010519899.3 | 申请日: | 2020-06-09 |
公开(公告)号: | CN111814476A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 胡洪兵;李健;武卫不 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 抽取 方法 装置 | ||
1.一种实体关系的抽取方法,其特征在于,所述方法包括:
获取第一实体和目标文本,所述第一实体为客观物体的抽象名称;
根据所述第一实体,从所述目标文本中确定目标语料,所述目标语料为包括所述第一实体的语句;
将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本,所述第二实体与所述第一实体之间具有预设逻辑关联,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句;
生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
2.根据权利要求1所述的方法,其特征在于,所述得到从所述目标语料中抽取出的与所述第一实体对应的实体关系文本的步骤,包括:
在所述目标语料中,将与所述第一实体之间的文本距离小于或等于第一预设距离的词句,确定为所述实体关系文本。
3.根据权利要求2所述的方法,其特征在于,所述得到从所述目标语料中抽取出的与所述第一实体对应的第二实体的步骤,包括:
从所述目标语料中,将与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,确定为所述第二实体。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本的步骤,包括:
将所述第一实体和所述目标语料输入所述实体关系抽取模型中,通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个第二实体和实体关系文本;
从所述至少一个第二实体和实体关系文本中,根据所述实体关系文本与所述第一实体之间的文本距离,将具有最小文本距离的实体关系文本确定为所述实体关系文本,将与所述具有最小文本距离的实体关系文本对应的第二实体确定为所述第二实体。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一实体,从所述目标文本中确定目标语料的步骤,包括:
在所述目标文本中,利用所述第一实体进行匹配操作;
根据所述匹配操作的结果,将所述目标文本中包含所述第一实体的语句确定为所述目标语料,所述包含所述第一实体的语句为所述目标文本中两个相邻句末点号之间的文本。
6.根据权利要求1所述的方法,其特征在于,所述预设逻辑关联包括预设的所述第一实体与所述第二实体之间的对应关系。
7.根据权利要求1所述的方法,其特征在于,获取所述实体关系抽取模型的步骤,包括:
获取样本语料,以及所述样本语料中包含的样本实体关系三元组,所述样本实体关系三元组包括第一样本实体、第二样本实体和样本实体关系文本;
根据所述样本实体关系三元组,对所述样本语料进行标注,得到标注样本;
根据所述标注样本对神经网络模型进行训练,得到所述实体关系抽取模型。
8.一种实体关系的抽取装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一实体和目标文本,所述第一实体为客观物体的抽象名称;
确定模块,用于根据所述第一实体,从所述目标文本中确定目标语料,所述目标语料为包括所述第一实体的语句;
抽取模块,用于将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本,所述第二实体与所述第一实体之间具有预设逻辑关联,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句;
生成模块,用于生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
9.根据权利要求8所述的装置,其特征在于,所述抽取模块,包括:
第一确定子模块,用于在所述目标语料中,将与所述第一实体之间的文本距离小于或等于第一预设距离的词句,确定为所述实体关系文本。
10.根据权利要求9所述的装置,其特征在于,所述抽取模块,包括:
第二确定子模块,用于从所述目标语料中,将与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,确定为所述第二实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010519899.3/1.html,转载请声明来源钻瓜专利网。