[发明专利]一种改进的结合实体关系和局部信息的关系抽取方法在审
申请号: | 202210333864.X | 申请日: | 2022-03-30 |
公开(公告)号: | CN114791953A | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 孙一立;戴宪华 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06K9/62;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 结合 实体 关系 局部 信息 抽取 方法 | ||
针对自然语言处理中的文档级文本的实体关系抽取任务,本发明提出了一种改进的结合实体关系和局部信息的关系抽取方法。这是一种新的基于深度学习文本实体关系抽取网络。针对文档级实体关系抽取存在的实体分布在多个句子中,间隔相对较远,实体对多标签分类以及实体表示中的上下文噪声问题,结合了SSAN(Structured Self‑Attention Network)模型和ATLOP(Adaptive Thresholding and Localized Context Pooling)模型各自的特点,将作为文本词嵌入模块的SSAN模型和作为实体关系分类模块的ATLOP模型结合适配使用构造出新的模型。该模型既对专门的实体句内和跨句关系进行专门的建模,有使用自适应判断阈值方法和局部上下文信息对应缓解了多标签和上下文噪声问题,在实际中取得了一定的效果。
技术领域
本发明涉及到深度学习领域,尤其是基于人工神经网络的自然语言处理方向。
背景技术
自然语言处理中的关系抽取任务具体含义为在给定的文本中分类识别或者提取出实体之间的语义关系。具体来说,在识别出文本中实体对象后(如USA和New York),再通过分类或者抽取得到它们之间的关系(如contains),最终得到一个实体关系三元组(如(USA,New York,contains))。关系抽取任务根据输入文本规模,可分类为句子级别抽取,文档级别关系抽取和语料级别关系抽取。其中,句子级别的关系抽取每次抽取对应输入为一个句子,关系对象都必定在同一句子中,文档级别的关系抽取每次则是对一段文字来进行,有关系的实体可能在同一句子中也可能跨句子,并且同一实体对象可能多次出现。实际生活中许多关系都是通过多个句子表达出来的。根据统计,40.7%以上的关系只能通过文档级的文本得到。因此,文档级关系抽取显得至关重要,一般领域的文档关系抽取在近年逐渐引起关注。
近几年以来各种各样的基于深度学习抽取方法相继被提出,性能指标也逐渐提高,然而整体的数据指标距离实用还有相当的距离,且文档级的实体间可以超过一种关系。性能指标的提高,实体分布在多个句子中,间隔相对较远,实体对多标签分类以及实体表示中的上下文噪声问题仍然是一个需要不断改善的关键。而目前许多模型都没有对专门的实体跨句关系进行专门的建模和设计采用适合不定数标签的专门的分类判断方法。
GAIN模型利用图卷积网络建模实体提及之间相互关系,两层卷积后输出的提及表示再平均为实体表示,用于实体节点图神经网络建模。此方法更好地把跨句上下文信息加入到实体的向量表示当中,在分类时加入了两个实体间非直接的间隔一个实体的关系推理信息,例如实体A和B有关系,但两者不出现在同一句子中,必须通过同时与两者有关系的一个实体进行推理。从而更好的实现了间接的实体关系分类。
ATLOP(Adaptive Thresholding and Localized Context Pooling)模型则是采用了训练时自适应的分类概率判断阈值和引入实体附近的有关上下文信息。统计表明,7%的实体对不止存在一种关系;为此有必要去关注多标签的问题,同时,该模型可能有不同的对不同实体对或类的置信度,其中一个全局阈值是不够的,该方法提出一个动态的自适应threshold用于分类器输出概率,而不是一般情况下固定的全局值,这个动态值通过对应adaptive-threshold损失函数学习得到,最终logits中的值大于该阈值的标签全输出,没有则为无关系。在许多方法中实体表示就是单纯的词嵌入平均,这样的话每一种实体无论在那个实体对中都是一种表示,这样就会引入无关的上下文噪声。为此,在不同位置的实体对表示中加入与位置相关的上下文信息。
SSAN模型(Structured Self-Attention Network)则是在自然语言处理常用的Bert模型基础上的改进,在其自注意力模块中针对关系抽取任务加入实体联系信息,把结构和共现信息融入编码方法中,同时使得嵌入分类都在一种网络中完成,减少了异构网络带来的信息损失。
以上方法均为值得借鉴和参考的尝试,对于本发明具有重要的启迪意义,同时也为本发明提供了一定程度的理论支持。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210333864.X/2.html,转载请声明来源钻瓜专利网。