[发明专利]一种用于互联网文本数据的实体关系联合抽取方法、装置有效
申请号: | 202111177032.5 | 申请日: | 2021-10-09 |
公开(公告)号: | CN113806493B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 宋怡晨;李爱平;贾焰;周斌;涂宏魁;王晔;江荣;徐锡山;喻承 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/953;G06F40/295;G06F40/30 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 陈松 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 互联网 文本 数据 实体 关系 联合 抽取 方法 装置 | ||
1.一种用于互联网文本数据的实体关系联合抽取方法,其特征在于,包括以下步骤:
步骤1:构建实体关系联合抽取模型,所述实体关系联合抽取模型包括数据预处理层、向量表示层、分类器层;
将从互联网信息中提取的互联网文本数据输入实体关系联合抽取模型的数据预处理层,提取互联网文本数据中的词构成词序列,枚举文本数据中所有可能的词组合作为候选实体,构成候选实体序列;
分别将词序列和候选实体序列输入向量表示层进行处理,得到词序列和候选实体序列的表示向量;
将词序列和候选实体序列的表示向量输入分类器层的实体分类器,得到实体;将实体组合得到实体对,将词序列和实体对的表示向量输入关系分类器,得到实体间关系;
步骤2:训练实体关系联合抽取模型,优化模型参数,得到训练好的实体关系联合抽取模型;
步骤3:将互联网文本数据输入训练好的实体关系联合抽取模型,输出实体和实体间关系,得到三元组头实体,关系,尾实体;
在步骤1中,在实体关系联合抽取模型的数据预处理层中,对互联网文本数据进行预处理,将文本数据以词为单位进行分解,获得词序列,表示为{w1,w2,…,wm};
枚举获得的词序列中所有跨度小于span的词组合,作为候选实体,构成候选实体序列,{e1,e2,…,en},其中,span为设定的预设的阈值,表示一个候选实体最多包含词的数量;
在步骤1中,将实体关系联合抽取模型的向量表示层设为预训练语言模型,所述预训练语言模型包括输入处理层和增加实体感知自注意力的transformer层,
在输入处理层中,对于通过数据预处理层获得的词序列,通过查找输入处理层中的词向量表,得到词对应的表示向量,获取词在文本数据的句子中的位置作为位置向量,将通过词向量表得到词对应的表示向量叠加位置向量得到文本数据中词的表示向量,输入处理层输出的词序列的表示向量为
对于通过数据预处理层获得的候选实体序列,通过查找输入处理层中的实体向量表,取得候选实体的表示向量,取候选实体的头尾词对应的位置向量的平均值作为位置向量,设置实体类型向量为1,三个向量叠加得到输入处理层输出的候选实体序列的表示向量
将词序列的表示向量和候选实体序列的表示向量链接在一起作为增加实体感知自注意力的transformer层的输入,并分别为词序列和候选实体序列增加输入序列的分隔符,表示为:
其中x[cls]和x[sep]分别为词序列和候选实体序列的分隔符;
将链接在一起的词序列和候选实体序列的表示向量输入增加实体感知自注意力的transformer层,得到每项输入对应的输出向量,输出向量序列表示为
增加实体感知自注意力的transformer层的输出通过如下计算:
αij=softmax(eij),
其中,hi为输出向量序列中的第i个输出向量,xi为在输入预训练语言模型的向量序列中与hi对应的表示向量,xj表示输入预训练语言模型的向量序列中xi以外的表示向量;Q、K、V属于注意力机制的基础参数,分别为查询矩阵query、键矩阵key和值矩阵value,m、n分别为词序列和候选实体序列的长度,αij为注意力权重,表示每个输入对其他输入的影响程度,eij为注意力分数,Qw2w为输入的xi和xj分别为词时的查询矩阵query,Qe2e为输入的xi和xj分别为实体时的查询矩阵query,Qw2e为输入的xi为词和xj为实体时的查询矩阵query,Qe2w为输入的xi为实体和xj为词时的查询矩阵query。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111177032.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置