[发明专利]一种基于对词元序列的预判断和多轮分类的实体关系抽取方法在审

专利信息
申请号: 202310136783.5 申请日: 2023-02-20
公开(公告)号: CN115982648A 公开(公告)日: 2023-04-18
发明(设计)人: 姚念民;佟缘;赵剑;张亚楠 申请(专利权)人: 大连理工大学
主分类号: G06F18/2413 分类号: G06F18/2413;G06F16/28;G06F18/214;G06F40/295;G06N3/048;G06N3/084
代理公司: 辽宁鸿文知识产权代理有限公司 21102 代理人: 王海波
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 对词 序列 判断 分类 实体 关系 抽取 方法
【权利要求书】:

1.一种基于对词元序列的预判断和多轮分类的实体关系抽取方法,包含以下步骤:

步骤(1):

利用BERT预训练语言模型对输入语句X进行处理,得到向量序列:(CLS,X1,X2,…,Xn),其中,CLS表示X的全局信息;对于宽度为L的span s,其BERT向量表示为:(Xi,Xi+1,…,Xi+L-1);

span向量表示编码器模块:利用BERT预训练语言模型得到输入语句中各个候选span的向量表示;

步骤(2):

将对应每一span的输入信息表示输入到实体预判断模块(PEJ)中的sigmoid分类器,判断该span是否属于实体,对于宽度为L的span s,其在sigmoid分类器上的输入信息表示由三部分拼接组成,第一部分为该span s的BERT向量表示(Xi,Xi+1,…,Xi+L-1)的最大池化,表示为i1(s):

Bert(s)=(Xi,Xi+1,…,Xi+L-1)

i1(s)=maxpool(Bert(s))

考虑到span宽度特征对模型的作用,使用一个宽度嵌入矩阵,表示为WE;WE中对应不同的span宽度(1,2,…)均有一个相同维数的向量表示,WE通过反向传播进行参数优化;嵌入向量WEL作为输入信息表示的第二部分,表示为i2(s):i2(s)=WEL

采用CLS作为输入信息表示的第三部分,表示为i3(s):i3(s)=CLS;

拼接输入信息表示的三部分,表示为i(s):i(s)=i1(s).i2(s).i3(s);

其中符号[.]表示向量拼接组合;

实体预判断模块(PEJ):判断输入语句中满足长度限制的各个span是否属于实体,保留被判断为属于实体的span;

i(s)输入PEJ模块进行预判断:

p(s)=σ(We*i(s)+be)

其中符号*表示矩阵乘法(同下),We和be分别表示ec0的权重和偏差,σ表示sigmoid函数;p(s)是s在ec0上的预测值;高预测值表示s属于实体的可能性大;给定阈值α,p(s)α表示s属于实体,否则不属于;

步骤(3):

对于上一步骤中判断为实体的span s,将其对应输入信息表示(同步骤(2))输入实体多轮分类模块(EMR)中,对应各实体类别分类器做进一步实体判断及所属具体实体类别判断;

实体多轮分类模块(EMR):经过PEJ模块初步判断span是否属于实体之后,对保留下的span进行做进一步的判断,具体地,分别判断span是否属于实验集中预先定义的各实体类别,若span不属于任一实体类别,则认为span不属于实体,不属于则筛除,否则保留span及其对应的一个或多个实体类别;

经过PEJ模块初步判断span是否属于实体之后,对保留下的span进行做进一步的判断,具体地,分别判断span是否属于实验集中预先定义的各实体类别,若span不属于任一实体类别,则认为span不属于实体,不属于则筛除,否则保留span及其对应的一个或多个实体类别;

假设预先定义数据集中包含4类实体、5类关系,则在分别对应4类实体的分类器ec1、ec2、ec3、ec4上,判断span s是否属于相应实体类别e1、e2、e3、e4,若不属于任一类别,则筛除span s;各分类器对span s进行预测:

其中,分别表示ec1、ec2、ec3、ec4上的权重和偏差;p1(s)、p2(s)、p3(s)、p4(s)表示在各类别上预测的二维向量,两个值分别表示span s不属于、属于各对应类别的概率;筛除被判断为不属于任一类别的span,保留其余span及其对应一个或多个类别;Spre表示保留下的span的集合;

步骤(4):

关系多轮分类模块RMR:实体多轮分类模块EMR中筛选出的实体集合,依次判断每一对实体间是否存在实验集中预定义的各关系类别,若实体对间不存在任一关系类别,则认为实体对间不存在关系,否则保留实体对、实体对中两个实体的实体类别及其存在的一个或多个关系类别;

多轮关系分类模块RMR对上一步骤中得到的集合Spre×Spre中的实体对进行关系抽取,(设定数据集中关系类别数量为5)RMR模块中对应5个关系类别的分类器rc1、rc2、rc3、rc4、rc5分别判断Spre×Spre中实体对(s1,s2)是否存在相应关系r1、r2、…、r5;各分类器的输入信息包含三部分信息,第一部分是实体s1、s2的BERT向量表示的最大池化i1(s1)、i1(s2)(同PEJ与EMR模块),第二部分是两实体的宽度嵌入信息i2(s1)、i2(s2)(同PEJ与EMR模块),第三部分则是实体对(s1,s2)在句子中的上下文信息,模型采用实体s1、s2之间(s1末尾位置到s2开头位置之间)的span的BERT表示的最大池化作为第三部分输入,表示为c(s1,s2);最后,将三部分信息进行拼接:

i(s1,s2)=i1(s1)·i1(s2)·i2(s1)·i2(s2)·c(s1,s2)

然后各关系分类器预测实体对(s1,s2)之间的关系:

分别表示各分类器上的权重和偏差;p1(s1,s2)、p2(s1,s2)、p3(s1,s2)、p4(s1,s2)、p5(s1,s2)分别表示(s1,s2)在各分类器上输出的二维向量,两个值分别表示实体对(s1,s2)不存在、存在对应类别关系的概率,预测得出关系集合Rpre

通过以上步骤,可识别得到文本语句中的实体集合Spre,抽取出关系集合Rpre

用于模型训练的数据集中每条语句包含句子、实体、关系,其中实体表示为[起始位置索引,结束位置索引,实体类型],关系表示为[头实体索引,尾实体索引,关系类型];模型损失为PEJ、EMR、RMR模块中各个分类器的损失之和,PEJ模块中分类器ec0是sigmoid分类器,因此采用binary-cross-entropy-loss计算损失,而EMR和RMR模块中各个分类器都是softmax分类器,因此采用cross-entropy-loss计算损失,Smrc模型总损失表示为L;分别表示模型分类器ec0,ec1,ec2,ec3,ec4,rc1,rc2,rc3,rc4,rc5上训练数据的损失;LPEJ,LEMR,LRMR分别表示PEJ、EMR、RMR模块整体的损失,则有:

L=LPEJ+LEMR+LRMR

对于PEJ和EMR模块各分类器训练数据的选择,假设语句X中选取带有标签的实体集St:{(s1,e1)、(s2,e2)、(s3,e3)、(s4,e4)}作为训练正例,同时在满足宽度限制的所有span中随机选取ce=100个不属于实体的span:(f1,none),(f2,none),…,(fce,none);

RMR模块中关系训练负例的选择与PEJ、EMR中的随机选取方式不同,从具有实体标签的实体的自由组合St×St中选取,假定语句中实体集合为St:{“Franca Chlistovsky”、“Brerametereologic institute”、“Milan”、“1950”},包含的关系为:[Franca Chlistovsky,Brera metereologic institute,Work for],其中Franca Chlistovsky,Brerametereologic institute为关系中包含的两个实体,Work for表示实体关系类型;则从中选取(“Franca Chlistovsky”,“Milan”,none)、(“Brera metereologic institute”,“1950”,none),…,(“Milan”,“1950”,none)等彼此间不存在关系的实体对作为关系抽取训练负例。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310136783.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top