[发明专利]一种基于实体关系联合抽取模型的多三元组抽取方法有效
申请号: | 201810993387.3 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109165385B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 赵翔;谭真;郭爱博;葛斌;郭得科;肖卫东;唐九阳;黄旭倩 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F16/36;G06N3/04 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 马骁;于洁 |
地址: | 410003*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 关系 联合 抽取 模型 三元 方法 | ||
1.一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于包括以下步骤:
获取文本,对目标文本进行分句处理,并对句子中的每个单词进行标记;
建立实体关系联合抽取模型;
对所述实体关系联合抽取模型进行训练;
根据所述实体关系联合抽取模型进行三元组抽取;
所述实体关系联合抽取模型,包括:
用于将具有1-hot表示的单词转换为嵌入向量的嵌入层、用于对输入句子进行编码的双向长短期记忆Bi-LSTM层和用于解码的CRF层;
其中,对于任意三元组t=(e1,e2,r)∈T,所述嵌入层,包括:
从所述嵌入层获得头实体向量e1、尾实体向量e2和关系向量r,为更好地满足迁移,要求e1+r≈e2,评分函数为:
其中,T为三元组集合、t为任意三元组、e1为头实体向量、e2为尾实体向量、r为关系向量、f(t)为评分函数。
2.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述对句子中的每个单词进行标记包括对句子中的每个单词进行位置、类型、是否涉及关系三部分进行标记。
3.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述Bi-LSTM层包括前向LSTM层和反向LSTM层,为防止双向LSTM输出实体特征出现偏差,要求和评分函数为:
其中,为前向LSTM输出的评分函数、为反向LSTM输出的评分函数、分别为前向LSTM输出的头实体向量和尾实体向量、分别为反向LSTM输出的头实体向量和尾实体向量。
4.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述对所述实体关系联合抽取模型进行训练包括建立损失函数,所述损失函数为:
L=Le+λLr;
其中,L为损失函数、Le为实体抽取损失、Lr为关系抽取损失、λ为权重超参数。
5.根据权利要求4所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述实体抽取损失Le取正确标记概率p(y|X)的最大值,所述实体抽取损失Le为:
所述关系抽取损失为:
其中,X为输入的句子序列;Y表示X可生成的所有序列;y指其中的一个预测序列;为CRF分数;Lem为训练集上的基于边界的排序损失函数;为前向LSTM损失函数;为反向LSTM损失函数;指预测的特征向量。
6.根据权利要求5所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述训练集上的基于边界的排序损失函数为:
所述前向LSTM损失函数为:
所述反向LSTM损失函数为:
其中,t为任意一个三元组;T为三元组集合;t’为负三元组;T’为负三元组集合;f(t')为负三元组的评分函数;为负三元组前向LSTM输出的评分函数;为负三元组反向LSTM输出的评分函数;γ为用于约束正样例和负样例之间边界的超参数;为前向LSTM输出的评分函数;为反向LSTM输出的评分函数。
7.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述根据所述实体关系联合抽取模型进行三元组抽取包括:
用下列得分函数的最高分的序列来对所述实体标签进行预测:
为假设的通过预测的实体的集合,对于候选实体对生成初始的三元组集合所述初始的三元组满足函数对于每一实体对,当满足:
时,即为唯一选择的三元组;
其中,m是候选实体的数量;指每个单词的实体预测结果;指根据实体预测结果获得的候选三元组;指候选三元组的集合;指预测的特征向量;X指输入的句子序列;Y表示X可生成的所有序列;为CRF分数;R指关系集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810993387.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种命名实体识别方法及装置
- 下一篇:一种中文零代词消解方法及系统