[发明专利]一种基于数据分布自适应间隔的少样本复杂关系抽取方法在审
申请号: | 202111422588.6 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114138935A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 张岐坦;翟利志;钟麟;汪涛;高学攀;杜楚;卜毅明;任海洋;陈路路;陈金勇;苌军红 | 申请(专利权)人: | 中国电子科技集团公司第五十四研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295;G06K9/62 |
代理公司: | 河北东尚律师事务所 13124 | 代理人: | 王文庆 |
地址: | 050081 河北省石家*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 分布 自适应 间隔 样本 复杂 关系 抽取 方法 | ||
本发明公开了一种基于数据分布自适应间隔的少样本复杂关系抽取方法,属于计算机自然语言处理领域。本发明针对文本中包含多个实体、多种关系的复杂场景,设计了元任务构造方法,引入了基于数据分布自适应间隔,并以此调整度量空间边界,同时引入负样本机制,解决None‑of‑the‑above场景问题,且对于常见的实体嵌套情况也可进行处理。
技术领域
本发明属于计算机自然语言处理领域,是一种基于任务内部数据分布调整度量空间划分范围的少样本复杂关系抽取方法。
背景技术
随着计算机和互联网的快速发展和普及,在这个信息爆炸的时代,如何快速地分析和处理信息,从文本中抽取出有价值的信息成为了研究的热点和急需解决的问题。其中,信息抽取技术将非结构化或半结构化描述的自然语言文本转化成结构化数据,在领域知识图谱构建、任务型对话系统、知识问答系统等诸多应用场景中发挥着重要的作用。通过信息抽取,从大量的数据中提取有价值的信息,使它们能够被机器理解,意义重大。
信息抽取是自然语言处理的一种运用,其任务为自动地从非结构化或半结构化文档中抽取出结构化信息。通过对文档信息进行建模,能够使计算机在大量的文本中抽取出重要的信息,节省了大量人力物力。
关系抽取是信息抽取领域的重要任务,目的在于从自然语言文本中抽取出指定实体对之间的语义关系。例如,“中国海军”和“中国”之间存在关系“所属国家”。关系抽取在知识图谱自动化构建、自动问答、文本挖掘等后续应用上具有广泛的应用场景。
基于深度学习的关系抽取方法大致分为有监督学习和无监督学习。有监督学习往往依赖于大量的高质量人工标注数据。而在现实情况下,大量的标注数据耗费的人力资源高,且专业内容亦较难获取。因此有人提出了无监督学习的方法,但该类的准确性仍有待提高。因此研究数据受限情况下的关系抽取方法就具有现实意义。
针对该问题有两种解决思路,其一是增加数据,具体方法包括远程监督学习方法、半监督学习方法、主动学习方法以及文本数据增强方法等。远程监督思想是使用大型语义数据库自动获取关系类型标签,将已有的知识库中的三元组对齐到丰富的非结构化数据中。这个方法基于一个非常强的假设,对于一个已有的知识库中的三元组,假设外部文档中任何包含这对实体的句子,在一定程度上都反映了这种关系。该假设太过绝对,必然会引入噪声。
另一种方法是提高有限数据的利用率,即少样本学习方法。在少样本学习中,与深度学习不同,基于大量的元任务进行训练,得到一个较好的初始化参数,基于此对新的元任务中的类别,仅需少量数据即可达到较好效果。其中元任务分为训练阶段的元任务和测试阶段的元任务,通常设置为N-way K-shot。N表示学习任务中的分类数目,K表示支持集中的样本数目。元任务中包含支持集和查询集,模型在支持集上训练,然后在测试集上进行测试。
目前,利用少样本学习的关系抽取方法在简单句的处理上效果良好,然而在包含多个关系三元组的复杂句中表现不佳,没有充分考虑实际场景中复杂句的情况。
发明内容
本发明的目的是针对现有少样本学习中存在的局限性,提供一种基于数据分布自适应间隔的少样本复杂关系抽取方法,该方法基于度量学习实现少样本关系抽取,可用于文本中存在多个实体、实体可能为嵌套实体,并可能存在多个关系三元组的情况,并可将数据分布较多的类别的预测概率提升,将数据分布较少的类别的预测概率降低。
为了实现上述目的,本发明采用的技术方案如下:
一种基于数据分布自适应间隔的少样本复杂关系抽取方法,通过构造元任务,基于数据分布自适应间隔和负样本机制,对复杂关系进行抽取。
进一步的,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十四研究所,未经中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111422588.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置