[发明专利]面向桥梁检测领域文本的少样本关系分类装置及分类方法在审
申请号: | 202211034115.3 | 申请日: | 2022-08-26 |
公开(公告)号: | CN115391535A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 李韧;任浩;杨建喜;蒋仕新;王笛;刘新龙;张廷萍 | 申请(专利权)人: | 重庆交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/295;G06K9/62;G06N3/04 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 黄河 |
地址: | 400074 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 桥梁 检测 领域 文本 样本 关系 分类 装置 方法 | ||
本发明涉及关系分类技术领域,具体涉及面向桥梁检测领域文本的少样本关系分类装置及分类方法,该装置包括上下文特征提取模块、实体特征提取模块和关系分类模块;上下文特征提取模块包括样本编码器和双向编码网络,样本编码器用于将桥梁检测的句子编码为向量形式,得到句子编码向量;双向编码网络用于对句子进行前向和后向的编码,将两个方向的编码结果进行拼接得到句子的上下文特征信息;实体特征提取模块用于从句子编码向量中抽取实体编码向量,并将其转化为实体特征向量。相比于当前神经网络少样本关系分类方法,本发明能够在少样本的前提下更好地对桥梁检测领域文本包含的不同关系类型进行分类。
技术领域
本发明涉及关系分类技术领域,具体涉及面向桥梁检测领域文本的少样本关系分类方法。
背景技术
关系分类是自然语言处理领域中的一项重要任务,它致力于判断给定语句中两个目标实体之间的预定义关系,为构建结构化知识(如知识图谱)提供了基础。当前用于该任务的主流深度学习模型以大量监督数据为驱动,这种方法导致模型泛化能力依赖于监督数据的数量和质量。但是,在特定领域,并没有公共领域这样庞大的高质量的监督数据。
为了缓解监督数据不足的问题,一种解决思路是远程监督的方法,这种方法通过对齐的大量的文本语料和已有知识库来自动生成大量带有标签的训练数据。远程监督假设“两个实体如果在知识库中存在某种关系,则包含这两个实体的语句在某种程度上能表示出这种关系”,启发式地将语句中的目标实体与知识库中的实体对齐,达到自动标注语句的目的。但是这个假设也带来了以下问题:(1)同一实体对在不同的语句中表示的关系可能并不相同,远程监督的方法会产生噪声数据;(2)在很多领域,暂时还没有一个完善的知识库(如桥梁检测领域),大部分实体对和关系呈长尾分布,可得到的用于训练的数据仍然不足。
另一种解决思路是研究如何充分利用少量标注样本进行训练,使得模型具有更好的泛化能力。少样本学习目标是从少量样本中学习到解决问题的方法。少样本学习的概念从计算机视觉领域兴起,研究工作主要集中在少样本图像识别的任务上。近年来,少样本学习方法在自然语言处理中也有了快速的发展。随着公共领域的少样本关系分类数据集FewRel的推出,研究者首次将少样本学习引入了关系分类任务。在FewRel数据集上,出现了很多优秀的工作,推动了少样本在关系分类领域的发展了,丰富了少样本学习的研究。然而,在桥梁检测领域,公共领域数据集FewRel上的模型和方法并不能够高效的实现对桥梁检测领域文本的实体关系准确分类。这是因为,在桥梁检测领域的文本中,句子的行文方式具有很强的领域特性:
(1)文本句子较长,实体之间跨度较大:长句子较多,当前的模型和方法不能充分获取句子的语义信息,不能够准确的表示句子的上下文特征,且文本句子长可能会造成实体之间跨度太大,模型无法准确获取两个实体之间的语义依赖信息,给关系判断带来挑战;
(2)一些关系类别的推断需要依赖反向的上下文信息:在中文的桥梁检测领域文本中,其中一些关系,头实体会出现在句子尾部,尾实体会出现在头实体之前,而对这样的文本进行(头实体,关系,尾实体)的关系判断时,需要获取反向的上下文信息依赖,因此需要考虑后向的上下文信息;
(3)同一个文本中包含多种实体间的不同关系,存在关系重叠的问题:在桥梁检测领域的文本数据中,存在着大量的关系重叠的文本,即同一个文本中包含着多种不同的实体关系是。在进行少样本关系分类任务时,相同的文本若出现在同一次训练过程中,会给模型学习和理解不同的关系实例的特征带来极大的干扰,影响模型的分类性能。
这种带有领域特性的文本给少样本关系分类任务带来了很大的挑战。而当前的少样本关系分类模型和方法更关注模型方法的新颖性,在处理桥梁检测领域的少样本关系分类任务时,因桥梁检测领域的文本特性影响,导致关系分类性能较差。
因此,在面向桥梁检测领域文本特性的少样本关系分类研究中,如何能够减小领域特性给神经网络模型带来影响,成为目前亟待解决的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆交通大学,未经重庆交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211034115.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种切菜模块及厨房切配机
- 下一篇:一种刃具激光二次淬火装置