[发明专利]一种基于类型相关性表征的实体关系抽取方法有效
申请号: | 202310440409.4 | 申请日: | 2023-04-23 |
公开(公告)号: | CN116151243B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 相艳;郭俊辰;刘威;郭军军 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30;G06N3/08;G06N3/0464 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 类型 相关性 表征 实体 关系 抽取 方法 | ||
1.一种基于类型相关性表征的实体关系抽取方法,其特征在于,所述抽取方法的步骤如下:
Step1、对数据集进行预处理:将带有实体类型及主体实体和客体实体的标记插入到数据集中,得到带有实体类型及主体实体和客体实体标记的数据集;
Step2、获取字符嵌入:将带有实体类型及主体实体和客体实体标记的输入文本序列中的每个token通过word2vec模型训练的字典映射到一个密集向量,通过密集向量获取字符嵌入;
Step3、获取输入字符表征:将步骤Step2得到的字符嵌入与位置向量进行联合嵌入,得到输入字符的表征;
Step4、使用Transformer对输入序列进行编码,输入序列中包含输入字符的表征,将输出的隐藏层向量使用注意力机制进行特征压缩,得到实体类型—类型关系表征;
Step5、根据Transformer编码得到的字符的隐藏层向量得到实体的上下文表征,将包含实体的上下文表征与主体实体和客体实体的语义表征进行特征融合,将融合后的表征和实体类型—类型关系表征进行拼接;
Step6、标签预测:将步骤Step5得到的表征送入到Softmax层,以获得最终的预测;
所述Step4中包括如下内容:在Step4中使用Transformer作为编码器,多头注意力机制通过引入多个不同的子空间,扩展了模型关注不同位置的能力,这种方法使模型能够在不同的空间中并行地学习到不同的特征表示,从而更好地捕捉输入序列中的关系;
对于实体和实体间的关系,引入一个可训练的实体类型表,输入标记与,通过Transformer编码器得到主体实体和客体实体隐藏层向量和,为了让关系对的表征向量可训练,将两个隐藏层向量进行拼接,平均池化,再送入线性层得到实体类型—类型关系表征;
在步骤Step5中,在通过编码器得到的字符的隐藏层向量后,首先采用字符级注意机制将其合并成句子级特征向量,记为,即实体的上下文表征,这里,表示隐藏状态的维度,表示序列长度,句子级特征向量被计算为句子中所有字符隐藏特征向量的加权和;
根据输入标记与,得到主体实体的token序列{ …,同理可得到客体实体的token序列{ …,i和j分别表示主体实体和客体实体的长度,然后使用max-pooling操作得到句子中主体实体和客体实体的语义表征和;为了更好的识别主体实体和客体实体的关系类型,将句子级特征向量与主体实体和客体实体的语义表征分别进行特征融合,得到上下文增强后的主体表征、客体表征;
在步骤Step5中,将上下文增强后的主体表征、客体表征和实体类型-类型关系表征进行拼接,得到实体类型增强后的融合表征。
2.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step1中包括如下内容:关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型,在每一句中插入键入的标记;具体来说,将给定的一个句子, 和一对主体实体和客体实体以及它们的类型, ,然后将文本标记符S: 和/S: 插入到句子S中对应的主体实体间,将文本标记符O: 和/O: 插入到句子S中对应的客体实体间。
3.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step2中包括如下内容:采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征,这种表征蕴含了字符的上下文信息,即也是一种字符粒度的局部信息;然后使用word2vec模型预训练字符嵌入查找表来获得字符嵌入。
4.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step3中包括如下内容:在Step3中分别计算第i个字符相对两个实体的相对位置和然后通过查找表将其转化为对应的向量,维度大小都是,然后将两者拼接得到相对位置嵌入;最后,由字符嵌入和相对位置嵌入的拼接得到输入字符的表征, ,字符嵌入的维度。
5.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step6中,为了计算每个关系的条件概率,实体类型增强后的融合表征被馈送到Soft Max分类器进行预测分类抽取;最后,使用交叉熵损失函数训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310440409.4/1.html,转载请声明来源钻瓜专利网。