[发明专利]基于一致性文本增强的远程监督关系抽取方法及装置有效
申请号: | 202110699269.3 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113392216B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 彭敏;罗娟;胡刚;廖庆文 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06N3/08;G06N5/02 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 张凯 |
地址: | 430072*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 一致性 文本 增强 远程 监督 关系 抽取 方法 装置 | ||
1.一种基于一致性文本增强的远程监督关系抽取方法,其特征在于,所述基于一致性文本增强的远程监督关系抽取方法包括:
获取多个句子实例,基于远程监督的假设,将每个句子实例对齐到知识库,确定每个句子实例对应的关系标签,将实体对和关系标签相同的句子实例划分到一个句子包,得到多个句子包;
对每个句子包中的每个句子实例采用不同的文本增强方法,得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本;
针对每个句子包,通过分段卷积神经网络,获得每个句子包中每个句子实例和句子包的权重,确定噪声样例,并通过包级别的特征,得到第一交叉熵损失;
通过关系预测模型对无关系句子实例以及噪声样例的强增强样本和弱增强样本进行预测,以弱增强样本对应的预测结果为伪标签,计算强增强样本和伪标签的第二交叉熵损失,并使用KL散度计算弱增强样本对应的预测结果与强增强样本对应的预测结果的差异,通过最小化所述差异得到一致性损失,约束关系预测模型充分学习无关系句子实例以及噪声样例本身具有的信息;
对第一交叉熵损失以及一致性损失进行加权求和,综合约束关系预测模型学习,利用随机梯度下降对关系预测模型进行优化直至收敛,得到训练好的关系预测模型;
利用训练好的关系预测模型对待预测的句子包进行预测,获得与其对应的关系标签。
2.如权利要求1所述的基于一致性文本增强的远程监督关系抽取方法,其特征在于,所述对每个句子包中的每个句子实例采用不同的文本增强方法,得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本的步骤包括:
对于每个句子包中的每个句子实例,使用SpaCy和StanfordNLP工具,找到每个句子实例中头实体和尾实体的最短依存树,作为该每个句子实例的强增强样本;
对于每个句子包中的每个句子实例,使用词典,用近义词替换除头尾实体外的一个或几个词语,作为该每个句子实例的弱增强样本。
3.如权利要求1所述的基于一致性文本增强的远程监督关系抽取方法,其特征在于,所述针对每个句子包,通过分段卷积神经网络,获得每个句子包中每个句子实例和句子包的权重,确定噪声样例,并通过包级别的特征,得到第一交叉熵损失的步骤包括:
使用分段卷积神经网络,将每个句子包中每个句子实例的相对位置表征、词向量、实体类型拼接起来作为PCNN模型的输入,使每个句子包中每个句子实例通过PCNN模型表征后形成一个向量,通过注意力机制对每个句子包内的句子实例进行加权求和,形成每个句子包的表示向量;
使用包级别的注意力机制,将若干个包作为大包,学习各个包的注意力权重,加权求和得到大包的表示向量;
将注意力权重低于阈值的句子包内的句子实例或整个包视为噪音样例;
针对每个句子包,基于其对应的包级特征和关系标签,利用交叉熵损失函数训练模型,计算得到第一交叉熵损失,公式表示如下为:
式中:θ为关系预测模型的关系预测模型参数,p(ri∣qi,θ)为关系预测模型在关系预测模型参数θ和包级特征qi下预测得到关系标签为ri的概率值,ri为第i个关系标签,|B|为多个句子实例对应的关系标签的总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110699269.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手推车车轮转向组件及手推车
- 下一篇:一种碲化镉喷涂设备及系统