[发明专利]文本中实体关系的抽取方法、装置、电子设备及存储介质有效
申请号: | 202110833660.8 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113282717B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 苏志鹄;刘娇;张奇 | 申请(专利权)人: | 北京惠每云科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/295;G06F40/30;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 刘凤 |
地址: | 100191 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 实体 关系 抽取 方法 装置 电子设备 存储 介质 | ||
1.一种文本中实体关系的抽取方法,其特征在于,所述抽取方法包括:
将待抽取文本输入至预先训练好的概念抽取模型中,得到与所述待抽取文本对应的概念序列;
基于预设的元组生成规则,确定出与所述概念序列对应的多个待判断关系元组;其中,所述多个待判断关系元组包括维度大于三维的高维度元组以及维度小于或者等于三维的元组;
基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,并基于确定出的多个关系特征向量,生成与所述待抽取文本对应的关系特征矩阵;
将所述关系特征矩阵输入至预先训练好的元组判断模型中,得到每个待判断关系元组对应的元组判断结果值,基于所述元组判断结果值满足预设判断条件的待判断关系元组,确定所述待抽取文本的目标实体关系,以表征所述待抽取文本中包括的多个实体,以及各个实体之间的关联关系;
所述基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,包括:
根据待抽取文本所属的领域,获取预设的至少一个与领域对应的预设的特征判断规则;
针对于每一个待判断关系元组,分别基于预设的特征判断规则对该待判断关系元组进行判断,得到该待判断关系元组在每个特征判断规则下的属性特征;
针对于每一个待判断关系元组,根据该待判断关系元组在各个特征判断规则下的属性特征、预先获取的词语义向量、字语义向量、序列向量以及位置向量,生成该待判断关系元组对应的关系特征向量。
2.根据权利要求1所述的抽取方法,其特征在于,当所述预设的特征判断规则包括遗漏判断规则时,通过以下步骤得到待判断关系元组的属性特征:
基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组与所述待抽取文本对应的其他待判断元组之间的互相包含关系;
基于其他待判断元组与所述待判断关系元组存在交叉的实体在所述判断关系元组中出现的情况,确定所述待判断关系元组是否存在遗漏;
基于遗漏检测结果,得到判断关系元组的属性特征;其中,所述属性特征包括遗漏信息以及未遗漏信息。
3.根据权利要求1所述的抽取方法,其特征在于,当所述预设的特征判断规则包括冗余判断规则时,通过以下步骤得到待判断关系元组的属性特征:
基于预设的实体图谱,确定所述待判断关系元组中每两个实体之间的边关系以及对应的边权重;
检测每两个实体之间的边权重是否大于阈值权重阈值,若两个实体之间的边权重大于预设权重阈值,确定所述待判断关系元组存在冗余;
基于所述待判断关系元组存在冗余的情况,得到判断关系元组的属性特征;其中,所述属性特征包括存在冗余以及不存在冗余。
4.根据权利要求1所述的抽取方法,其特征在于,当所述预设的特征判断规则包括连贯判断规则时,通过以下步骤得到待判断关系元组的属性特征:
基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组中包括的多个实体之间的语义是否连贯;
基于待判断关系元组中包括的多个实体的连贯判断结果,得到判断关系元组的属性特征;其中,所述属性特征包括语义连贯以及语义不连贯。
5.根据权利要求1所述的抽取方法,其特征在于,通过以下步骤得到所述词语义向量以及所述字语义向量:
对所述待抽取文本进行分词处理,基于预先训练的领域词向量,得到分词处理后,每个词对应的词语义向量;
基于所述待抽取文本以及预先训练的领域字向量,得到所述待抽取文本中每个字对应的字语义向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京惠每云科技有限公司,未经北京惠每云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110833660.8/1.html,转载请声明来源钻瓜专利网。