[发明专利]一种基于对词元序列的预判断和多轮分类的实体关系抽取方法在审
申请号: | 202310136783.5 | 申请日: | 2023-02-20 |
公开(公告)号: | CN115982648A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 姚念民;佟缘;赵剑;张亚楠 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F18/2413 | 分类号: | G06F18/2413;G06F16/28;G06F18/214;G06F40/295;G06N3/048;G06N3/084 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 王海波 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对词 序列 判断 分类 实体 关系 抽取 方法 | ||
一种基于对词元序列的预判断和多轮分类的实体关系抽取方法,在词元序列(token sequence),即span层次上对文本语句进行预测的模型,用以找出文本语句中所有实体及实体间关系。模型利用BERT预训练模型,同时包含预判断(PEJ)、实体多轮分类(EMR)、关系多轮分类(RMR)三个模块。通过PEJ模块对实体的初步判断及EMR模块的多轮实体分类进行实体识别,再利用RMR模块多轮关系分类判断实体对间关系,实现关系抽取。Smrc模型中的多轮分类使得数据集被多次、充分的利用,模型被更好的拟合,多个分类器在多个类别上直接判断实体及实体对间关系,避免了单个多输出分类器在不同类别上判别能力不平衡和差异性大的问题,模型结构更为精细,加上实体预判断模块(PEJ),使得Smrc模型识别效果更加准确。
技术领域
本发明应用于自然语言处理领域中的实体识别和关系抽取任务,提出一种利用预判断和实体关系多轮分类方法,在词元序列(token sequence),即span层次上对文本语句进行预测的模型:Smrc,用以找出文本语句中所有实体及实体间关系。
背景技术
近年,随着以ELMo、GPT、BERT等为代表的预训练语言模型的出现,自然语言处理领域的多项任务都取得了新突破,其中BERT预训练模型来自Transformers模型的双向编码器表示。在大型语料库的文本序列上使用BERT预先训练文本中每个词元,得到每个词元的向量表示。训练好的BERT模型可以迁移到训练数据较少的下游任务上。在本发明的Smrc模型中,一条语句中各词元的BERT表示将被输入到一个特定于实体识别和关系抽取任务的解码器中,通过反向传播对BERT模型参数进行微调。
实体识别和关系抽取即是从非结构化文本中抽取实体及实体间的关系,是信息抽取的核心任务,具体包含命名实体识别和关系抽取两个子任务。对于给定句子:“Rome isin Lazio province and Naples in Campania”,实体识别的目标是找出句子中所有实体:“Rome”,“Lazio”,“Naples”,“Campania”,关系抽取则是找出句子中所有实体-关系三元组:(“Rome”,Located-in,“Lazio”),(“Naples”,Located-in,“Campania”)。其中“Located-in”代表关系类型。
早期工作常使用流水线方法分别处理两个子任务,目前联合学习方法成为主流,相比于流水线方法,联合学习方法利用实体和关系间紧密的交互信息,同时识别实体并抽取实体间的关系,改善了流水线方法中存在的错误累积和传播问题。按照建模层次的不同,联合学习分为参数共享和序列标注,参数共享对两个子任务单独建模,序列标注则是一同建模。
基于序列标注的方法设定每个词元只有一个标注,无法识别重叠的实体,例如:“lithium toxicity”,“lithium”都属于实体,但因为序列标注方法只赋予词元“lithium”一个标注,使得无法同时识别出两个实体:“lithium toxicity”和“lithium”。
近来,一些基于span的联合学习方法被提出,在span层次上进行实体和关系探索,“lithium toxicity”和“lithium”属于不同的span,因此在识别重叠实体上具有天然优势。
发明内容
本发明中提出的Smrc模型采用参数共享方法,使用BERT作为编码器,命名实体识别和关系抽取两个子任务通过共享编码器进行联合学习,实现相互依赖。考虑到以往基于span的模型中,往往使用一个多输出解码器来进行span的预测分类,未考虑到分类器在各类别上分类能力的差异和不均衡,也未能充分利用训练数据,因此在本发明所提出的Smrc模型中,通过多轮分类方式来对span进行实体和关系的预测,解决了上述问题。此外,通过在多轮分类前对实体进行预判断,进一步提高了实体和关系识别的准确性。
本发明解决技术问题采用的方法如下:
一种基于对词元序列的预判断和多轮分类的实体关系抽取方法,包含以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310136783.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:输送线
- 下一篇:一种交通流量预测装置、预测方法及预测模型构建方法