[发明专利]一种基于类型相关性表征的实体关系抽取方法有效
申请号: | 202310440409.4 | 申请日: | 2023-04-23 |
公开(公告)号: | CN116151243B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 相艳;郭俊辰;刘威;郭军军 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30;G06N3/08;G06N3/0464 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 类型 相关性 表征 实体 关系 抽取 方法 | ||
本发明提供一种基于类型相关性表征的实体关系抽取方法,属于人工智能语言处理领域。实体关系抽取通常采用深度学习的方法选取特征,在不同领域进行实体关系抽取时,通常没能考虑到主体和客体实体的类型相关性对关系抽取的帮助。在此提出了一种基于类型相关性表征的实体关系抽取方法,该方法使用实体标签和位置嵌入来增强字符的信息,使用注意力控机制来融合实体局部上下文表征,并通过实体类型-类型关系指导关系抽取的方法。医学领域数据集CMeIE和文学领域SanWen数据集实验结果表明,本发明提出的基于类型相关性表征的实体关系抽取方法是有效的。
技术领域
本发明提供一种基于类型相关性表征的实体关系抽取方法,属于语言处理技术领域。
背景技术
深度神经网络可以自动地从领域文本中提取特征,而且只需要很少或者甚至不需要进行任何特征工程。即使没有人工干预,该模型仍然能够保持较高的准确性和稳定性。这种自动特征提取的能力是深度神经网络在自然语言处理任务中优秀表现的关键之一,使其在许多领域都有着广泛的应用。所以关系抽取任务主流的方法也是使用深度学习。
近年来,Zhao等人提出了一种双阶段句法CNN模型,该模型结合了词向量和多种外部特征,包括句法信息、位置和词性等。出了一种改进的二叉树LSTM模型,该模型通过结合词向量与位置、句法信息等特征来为药物相互作用关系的分类提供了多重特征。Park等人考虑到了输入文本数据的上下文语境信息和空间结构信息,针对这一特点,他们提出了一种名为AGCN的注意力图卷积神经网络模型。该模型采用了注意力机制,并设计了一种新的剪枝策略,用于捕获句法特征中的重要信息。Chen在20年提出了关系抽取流水线模型,最后的结论是,使用单独的编码器,可以让模型学习更好的特定任务特征,并且引入实体类别信息会关系模型有提升。Ye等人在Chen的模型基础上进行了改进,并提出了一种新的跨度表示方法。该方法在编码器中采用了面向邻域的布局,综合考虑了邻域跨度的特征,以更好地对实体边界信息进行建模。同时,该方法还通过对token的包装方式考虑跨度之间的相互关系。目前中文医学文本关系抽取方法仍有一些不足:1. 对于一些现有的先进的模型和baseline,对于实体名称及类型,实体类型贡献更大而很少关注。2. 句子中的实体对于字符的相对位置和绝对位置都对关系抽取有影响,现有研究有些不足。3. 主体实体和客体实体的类型之间也有很强的相关性,现有研究没有关注利用此信息。
发明内容
针对上述提到的不足,本发明提出了并实现了一种基于类型相关性表征的实体关系抽取方法;提升了实体关系抽取的性能。
本发明的技术方案是:所述抽取方法的步骤如下:
Step1、对数据集进行预处理:将带有实体类型及主体实体和客体实体的标记插入到数据集中,得到带有实体类型及主体实体和客体实体标记的数据集;
所述Step1中包括如下内容:关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型,在每一句中插入键入的标记;具体来说,将给定的一个句子, 和一对主体实体和客体实体以及它们的类型, ,然后将文本标记符S: 和/S: 插入到句子S中对应的主体实体间,将文本标记符O: 和/O: 插入到句子S中对应的客体实体间。
Step2、获取字符嵌入:将带有实体类型及主体实体和客体实体标记的输入文本序列中的每个token通过word2vec模型训练的字典映射到一个密集向量,通过密集向量获取字符嵌入;
所述Step2中包括如下内容:采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征,这种表征通常蕴含了字符的上下文信息,即也是一种字符粒度的局部信息;然后使用word2vec模型预训练字符嵌入查找表来获得字符嵌入。
Step3、获取输入字符表征:将步骤Step2得到的字符嵌入与位置向量进行联合嵌入,得到输入字符的表征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310440409.4/2.html,转载请声明来源钻瓜专利网。