[发明专利]一种用于互联网文本数据的实体关系联合抽取方法、装置有效

专利信息
申请号: 202111177032.5 申请日: 2021-10-09
公开(公告)号: CN113806493B 公开(公告)日: 2023-08-29
发明(设计)人: 宋怡晨;李爱平;贾焰;周斌;涂宏魁;王晔;江荣;徐锡山;喻承 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/953;G06F40/295;G06F40/30
代理公司: 苏州国诚专利代理有限公司 32293 代理人: 陈松
地址: 410000 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 互联网 文本 数据 实体 关系 联合 抽取 方法 装置
【权利要求书】:

1.一种用于互联网文本数据的实体关系联合抽取方法,其特征在于,包括以下步骤:

步骤1:构建实体关系联合抽取模型,所述实体关系联合抽取模型包括数据预处理层、向量表示层、分类器层;

将从互联网信息中提取的互联网文本数据输入实体关系联合抽取模型的数据预处理层,提取互联网文本数据中的词构成词序列,枚举文本数据中所有可能的词组合作为候选实体,构成候选实体序列;

分别将词序列和候选实体序列输入向量表示层进行处理,得到词序列和候选实体序列的表示向量;

将词序列和候选实体序列的表示向量输入分类器层的实体分类器,得到实体;将实体组合得到实体对,将词序列和实体对的表示向量输入关系分类器,得到实体间关系;

步骤2:训练实体关系联合抽取模型,优化模型参数,得到训练好的实体关系联合抽取模型;

步骤3:将互联网文本数据输入训练好的实体关系联合抽取模型,输出实体和实体间关系,得到三元组头实体,关系,尾实体;

在步骤1中,在实体关系联合抽取模型的数据预处理层中,对互联网文本数据进行预处理,将文本数据以词为单位进行分解,获得词序列,表示为{w1,w2,…,wm};

枚举获得的词序列中所有跨度小于span的词组合,作为候选实体,构成候选实体序列,{e1,e2,…,en},其中,span为设定的预设的阈值,表示一个候选实体最多包含词的数量;

在步骤1中,将实体关系联合抽取模型的向量表示层设为预训练语言模型,所述预训练语言模型包括输入处理层和增加实体感知自注意力的transformer层,

在输入处理层中,对于通过数据预处理层获得的词序列,通过查找输入处理层中的词向量表,得到词对应的表示向量,获取词在文本数据的句子中的位置作为位置向量,将通过词向量表得到词对应的表示向量叠加位置向量得到文本数据中词的表示向量,输入处理层输出的词序列的表示向量为

对于通过数据预处理层获得的候选实体序列,通过查找输入处理层中的实体向量表,取得候选实体的表示向量,取候选实体的头尾词对应的位置向量的平均值作为位置向量,设置实体类型向量为1,三个向量叠加得到输入处理层输出的候选实体序列的表示向量

将词序列的表示向量和候选实体序列的表示向量链接在一起作为增加实体感知自注意力的transformer层的输入,并分别为词序列和候选实体序列增加输入序列的分隔符,表示为:

其中x[cls]和x[sep]分别为词序列和候选实体序列的分隔符;

将链接在一起的词序列和候选实体序列的表示向量输入增加实体感知自注意力的transformer层,得到每项输入对应的输出向量,输出向量序列表示为

增加实体感知自注意力的transformer层的输出通过如下计算:

αij=softmax(eij),

其中,hi为输出向量序列中的第i个输出向量,xi为在输入预训练语言模型的向量序列中与hi对应的表示向量,xj表示输入预训练语言模型的向量序列中xi以外的表示向量;Q、K、V属于注意力机制的基础参数,分别为查询矩阵query、键矩阵key和值矩阵value,m、n分别为词序列和候选实体序列的长度,αij为注意力权重,表示每个输入对其他输入的影响程度,eij为注意力分数,Qw2w为输入的xi和xj分别为词时的查询矩阵query,Qe2e为输入的xi和xj分别为实体时的查询矩阵query,Qw2e为输入的xi为词和xj为实体时的查询矩阵query,Qe2w为输入的xi为实体和xj为词时的查询矩阵query。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111177032.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top