[发明专利]一种基于多标签分类的实体关系联合抽取模型的建立方法有效

申请号：	202010937094.0	申请日：	2020-09-08
公开（公告）号：	CN112069328B	公开（公告）日：	2022-06-24
发明（设计）人：	李爱平;刘运璇;贾焰;江荣;周斌;涂宏魁;王晔	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/35;G06F40/30;G06F40/284;G06N3/04
代理公司：	西安研创天下知识产权代理事务所(普通合伙) 61239	代理人：	郭璐
地址：	410073 湖南省长沙市开***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于标签分类实体关系联合抽取模型建立方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：包括：

S1.搭建基于Encoder-Decoder的模型框架；

S2.设计基于多标签分类的实体关系联合抽取模型的标注方式：根据句子S中的实体关系的数量，为句子S标注相同数量的标签序列，且在每个序列中只标注一对实体及实体间的关系；

S3.设计基于DCNN和Bi-LSTM的编码器，利用DCNN和Bi-LSTM的编码器将3层空洞卷积输出的语义单元表示，与Bi-LSTM输出的单词语义信息相连接，共同作为编码器的输出，实现将不同长度的句子编码为固定长度的向量；

S4.设计基于CNN链和Attention的解码器，实现利用CNN链和Attention将得到的语义信息生成多个实体关系三元组，进行实体关系的抽取；

S5.设计基于Encoder-Decoder模型框架的三元组正确性评估模块。

2.根据权利要求1所述的一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：在步骤S1所述的搭建基于Encoder-Decoder的模型框架的过程中，包括搭建词向量预训练模块，在词向量预训练模块中采用word2vec训练得到的词向量对句子中的词汇进行表示。

3.根据权利要求1所述的一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：步骤S3所述的设计基于Bi-LSTM的循环神经网络模型的过程包括：

S301.设计基于LSTM的循环神经网络模型

(1)设计遗忘门：遗忘门接受的信息是上一个记忆单元的信息h^(t-1]和当前的输入信息x^(t),输出信息为0到1之间的数值，该数值决定了细胞状态C^(t-1)保留下来的信息，其中数值0表示“完全舍弃”，数值1表示“完全保留”，遗忘门的公式表示为：

f^(t)＝sigmoid(W^f·[h^(t-1],x^(t)]+b^f) (1)

其中：f^(t)代表遗忘门当前时刻t的输出，sigmoid为激活函数，W^f代表遗忘门的权重矩阵，b^f代表遗忘门的偏置项；

(2)设计输入门：输入门是对当前时刻t输入的信息x^(t)进行选择性的记忆，其主要通过两个步骤实现，首先利用一个sigmoid层确定更新哪些内容，一个tanh层确定更新内容的备选项，之后将两个部分相结合实现对细胞状态的更新，计算公式表示为：

i^(t)＝sigmoid(Wⁱ·[h^(t-1],x^(t)]+bⁱ) (2)

其中：公式(2)中i^(t)代表输入门当前时刻t的输出，sigmoid为激活函数，Wⁱ代表权重矩阵，h^(t-1]代表上一个记忆单元的信息，b^f代表偏置项；公式(3)中的代表当前时刻t输入的单元状态，tanh为激活函数，W^C代表权重矩阵，h^(t-1]代表上一个记忆单元的信息，b^C代表偏置项；公式(4)中的C^(t)代表当前时刻t输出的单元状态，f^(t)是公式(1)中遗忘门输出，C^(t^-1)代表上一时刻t-1单元的状态，i^(t)和来自公式(2)和公式(3)；

(3)设计输出门：首先通过一个sigmoid层来确定输入信息中哪些部分将会加入到输出中，之后用一个tanh层对细胞状态信息进行处理，最后将两个部分的内容相乘，得到最后的输出部分，计算公式表示为：

o^(t)＝sigmoid(W^o·[h^(t-1],x^(t)]+b^o) (5)

h^(t)＝o^(t)·tanh(C^(t)) (6)

其中：o^(t)代表输出门当前时刻t的输出，sigmoid为激活函数，W^o代表权重矩阵，h^(t-1)代表上一个记忆单元的信息，x^(t)代表当前的输入信息，b^o代表偏置项；h^(t)代表输出门当前时刻t的输出，代表当前时刻t输出的单元状态；

S302.在步骤S301的基础上设计基于Bi-LSTM的循环神经网络模型：

(1)对于一个句子中的单词w^(t)，前向LSTM根据上文单词w⁽¹⁾到w^(t)，将w^(t)编码成后向LSTM根据下文单词w⁽ⁿ⁾到w^(t)，将w^(t)编码成与的计算过程及单词w^(t)的最终表示h^(t)表示为：

其中：代表上一个记忆单元的信息，C^(t-1)代表上一时刻t-1单元的状态。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010937094.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种碳素纤维机器人手臂叉的表面处理方法
下一篇：一种用于果园的地下灌溉管

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多标签分类的实体关系联合抽取模型的建立方法有效

专利文献下载