[发明专利]一种基于损失优化的实体关系联合抽取方法有效
申请号: | 202010385529.5 | 申请日: | 2020-05-09 |
公开(公告)号: | CN111581387B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 甘涛;甘云强;何艳敏 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 甘茂 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 损失 优化 实体 关系 联合 抽取 方法 | ||
1.一种基于损失优化的实体关系联合抽取方法,包括以下步骤:
步骤1、数据预处理;
步骤1.1、读取实体标签数据:
步骤1.1.1、对文本T,从标签文件中读取分词信息,将T分割成不同的词ti,1≤i≤Nw、Nw为文本T中词的总个数,其中标点符号视为一个词;
步骤1.1.2、对文本T中的每一个词ti,从标签文件中读取实体类型信息,生成ti的实体类型编号li:若ti被标注为某实体、则令li为该实体的实体类别编号,否则、令li=Ne+1,Ne为实体类别总数;
步骤1.1.3、对文本T中的每一个词ti,将其实体类型编号li进行独热(one-hot)编码,得到实体标签向量yi;
步骤1.2、读取关系标签数据:
步骤1.2.1、将文本T中的任意两个不同的词ti和tj组成词对(ti,tj),1≤i,j≤Nw,i≠j;从标签文件中读取词对(ti,tj)的关系类型信息,生成词对(ti,tj)所对应的关系类型编号mi,j:若词对(ti,tj)被标注为某关系、则令mi,j为该关系的关系类别编号,否则、令mi,j=Nr+1,Nr为关系类别总数;
步骤1.2.2、对每一个词对(ti,tj),将其关系类型编号mi,j进行独热编码,得到关系标签向量zi,j;
步骤2、构建及训练联合分类模型;
步骤2.1、构建联合分类模型,包括:输入层、隐藏层及输出层;
所述输入层采用word2vec词嵌入结构、并设置其输出矢量的维数为dw;将文本T中的每一个词ti输入到输入层进行词嵌入,得到维数为dw的词向量wi;
所述隐藏层采用双向LSTM结构、并设置其输出矢量的维数为dc;其中,前向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行前向LSTM编码得到维数为dc的前向编码向量后向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行后向LSTM编码得到维数为dc的后向编码向量将每一个词ti所对应的前向编码向量和后向编码向量进行拼接,得到维数为2×dc双向编码向量hi:
所述输出层采用softmax与sigmoid分类器的联合结构;其中:
所述softmax分类器进行实体类型预测,将每一个双向编码向量hi输入到softmax分类器,得到维数为Ne+1的实体类型预测向量
所述sigmoid分类器进行关系类型预测,将每一个词对(ti,tj)中ti和tj所对应的双向编码向量hi和hj输入到sigmoid分类器,得到维数为Nr+1的关系类型预测向量
步骤2.2、训练联合分类模型:设置训练集的文本总条数为Ntrain、训练总迭代次数为Nt以及损失函数,采用反向传播算法对联合分类模型参数进行更新,训练结束得到联合分类模型;
所述损失函数为:
其中,为实体损失:
δi为词ti的敏感因子:
为实体标签向量yi的第li个元素,为实体类型预测向量的第li个元素,1≤li≤Ne+1;λ为预设敏感阈值,sgn(·)为符号函数:
βi为词ti的衰减因子:
NO表示文本T中非实体类型的词的个数;
为关系损失:
步骤3、实体关系联合抽取;
步骤3.1、采用中文分词工具对待处理文本T'进行分词处理,将T'分割成不同的词t'i',1≤i'≤N'w、N'w为T'中词的总个数;并形成词对(t'i',t'j'),1≤i',j'≤N'w,i'≠j';输入至训练得到的联合分类模型,得到每一个词t'i'的实体类型预测向量以及词对(t'i',t'j')的关系类型预测向量其中,实体类型预测向量中最大值对应的位置编号作为词t'i'的实体类型预测编号关系类型预测向量中最大值所对应的位置编号作为词对(t'i',t'j')的关系类型预测编号
步骤3.2、输出实体关系三元组:对每个词对(t'i',t'j')进行判断:若该词对对应的实体类型预测编号和均不等于Ne+1,且其关系类型预测编号不等于Nr+1,则形成实体关系三元组(t'i',Ri',j',t'j')并输出,其中,Ri',j'为关系类型预测编号所对应的关系名称。
2.按权利要求1所述基于损失优化的实体关系联合抽取方法,其特征在于,所述敏感阈值λ的取值范围:0.7≤λ≤0.9。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010385529.5/1.html,转载请声明来源钻瓜专利网。