[发明专利]一种基于多标签分类的实体关系联合抽取模型的建立方法有效

专利信息
申请号: 202010937094.0 申请日: 2020-09-08
公开(公告)号: CN112069328B 公开(公告)日: 2022-06-24
发明(设计)人: 李爱平;刘运璇;贾焰;江荣;周斌;涂宏魁;王晔 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06F40/30;G06F40/284;G06N3/04
代理公司: 西安研创天下知识产权代理事务所(普通合伙) 61239 代理人: 郭璐
地址: 410073 湖南省长沙市开*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 标签 分类 实体 关系 联合 抽取 模型 建立 方法
【权利要求书】:

1.一种基于多标签分类的实体关系联合抽取模型的建立方法,其特征在于:包括:

S1.搭建基于Encoder-Decoder的模型框架;

S2.设计基于多标签分类的实体关系联合抽取模型的标注方式:根据句子S中的实体关系的数量,为句子S标注相同数量的标签序列,且在每个序列中只标注一对实体及实体间的关系;

S3.设计基于DCNN和Bi-LSTM的编码器,利用DCNN和Bi-LSTM的编码器将3层空洞卷积输出的语义单元表示,与Bi-LSTM输出的单词语义信息相连接,共同作为编码器的输出,实现将不同长度的句子编码为固定长度的向量;

S4.设计基于CNN链和Attention的解码器,实现利用CNN链和Attention将得到的语义信息生成多个实体关系三元组,进行实体关系的抽取;

S5.设计基于Encoder-Decoder模型框架的三元组正确性评估模块。

2.根据权利要求1所述的一种基于多标签分类的实体关系联合抽取模型的建立方法,其特征在于:在步骤S1所述的搭建基于Encoder-Decoder的模型框架的过程中,包括搭建词向量预训练模块,在词向量预训练模块中采用word2vec训练得到的词向量对句子中的词汇进行表示。

3.根据权利要求1所述的一种基于多标签分类的实体关系联合抽取模型的建立方法,其特征在于:步骤S3所述的设计基于Bi-LSTM的循环神经网络模型的过程包括:

S301.设计基于LSTM的循环神经网络模型

(1)设计遗忘门:遗忘门接受的信息是上一个记忆单元的信息h(t-1]和当前的输入信息x(t),输出信息为0到1之间的数值,该数值决定了细胞状态C(t-1)保留下来的信息,其中数值0表示“完全舍弃”,数值1表示“完全保留”,遗忘门的公式表示为:

f(t)=sigmoid(Wf·[h(t-1],x(t)]+bf) (1)

其中:f(t)代表遗忘门当前时刻t的输出,sigmoid为激活函数,Wf代表遗忘门的权重矩阵,bf代表遗忘门的偏置项;

(2)设计输入门:输入门是对当前时刻t输入的信息x(t)进行选择性的记忆,其主要通过两个步骤实现,首先利用一个sigmoid层确定更新哪些内容,一个tanh层确定更新内容的备选项,之后将两个部分相结合实现对细胞状态的更新,计算公式表示为:

i(t)=sigmoid(Wi·[h(t-1],x(t)]+bi) (2)

其中:公式(2)中i(t)代表输入门当前时刻t的输出,sigmoid为激活函数,Wi代表权重矩阵,h(t-1]代表上一个记忆单元的信息,bf代表偏置项;公式(3)中的代表当前时刻t输入的单元状态,tanh为激活函数,WC代表权重矩阵,h(t-1]代表上一个记忆单元的信息,bC代表偏置项;公式(4)中的C(t)代表当前时刻t输出的单元状态,f(t)是公式(1)中遗忘门输出,C(t-1)代表上一时刻t-1单元的状态,i(t)和来自公式(2)和公式(3);

(3)设计输出门:首先通过一个sigmoid层来确定输入信息中哪些部分将会加入到输出中,之后用一个tanh层对细胞状态信息进行处理,最后将两个部分的内容相乘,得到最后的输出部分,计算公式表示为:

o(t)=sigmoid(Wo·[h(t-1],x(t)]+bo) (5)

h(t)=o(t)·tanh(C(t)) (6)

其中:o(t)代表输出门当前时刻t的输出,sigmoid为激活函数,Wo代表权重矩阵,h(t-1)代表上一个记忆单元的信息,x(t)代表当前的输入信息,bo代表偏置项;h(t)代表输出门当前时刻t的输出,代表当前时刻t输出的单元状态;

S302.在步骤S301的基础上设计基于Bi-LSTM的循环神经网络模型:

(1)对于一个句子中的单词w(t),前向LSTM根据上文单词w(1)到w(t),将w(t)编码成后向LSTM根据下文单词w(n)到w(t),将w(t)编码成与的计算过程及单词w(t)的最终表示h(t)表示为:

其中:代表上一个记忆单元的信息,C(t-1)代表上一时刻t-1单元的状态。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010937094.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top