[发明专利]一种基于多层循环神经网络的文档摘要提取方法及系统有效

申请号：	202110157327.X	申请日：	2021-02-04
公开（公告）号：	CN113157914B	公开（公告）日：	2022-06-14
发明（设计）人：	陈羽中;张斯巍	申请（专利权）人：	福州大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/126;G06F40/211;G06F40/279;G06F40/30;G06N3/04;G06N3/08
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	陈明鑫;蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多层循环神经网络文档摘要提取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多层循环神经网络的文档摘要提取方法，其特征在于，包括以下步骤：

步骤A、采集用于训练的文档-句子标签对，构建文档-句子标签对训练集，每条训练样本包括文档与文档中每条句子的标签；句子的标签值为1代表该句子属于摘要，标签值为0代表该句子不属于摘要；

步骤B、使用文档-句子标签对训练集，对用于文档摘要提取的深度学习网络模型进行训练；

步骤C、将待提取摘要的文档输入到训练好的深度学习网络模型中，输出文档的摘要；

所述步骤B具体包括以下步骤：

步骤B1、遍历训练集，对训练集中的每个训练样本，重复步骤B2-B5；

步骤B2、根据预训练的词向量矩阵，对训练样本中的文档进行编码，得到文档中每个句子的初始表征向量；

步骤B3、将步骤B2得到的文档中每个句子的初始表征向量输入到句子编码器中，得到文档中每个句子的上下文表征向量；

步骤B4、将步骤B3得到的文档中每个句子的上下文表征向量输入到文档编码器中，得到文档的上下文表征向量；

步骤B5、将步骤B4得到的文档的上下文表征向量输入到线性分类层，根据目标损失函数loss，利用反向传播方法计算深度学习网络M中各参数的梯度，并利用随机梯度下降方法更新参数；

步骤B6、当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大迭代次数，则终止深度学习网络模型M的训练；

所述步骤B4具体包括以下步骤：

步骤B41、将文档中每个句子的上下文表征向量构成的向量矩阵分别乘以权重矩阵W_q、W_k、W_v，得到作为多头注意力机制输入的表征向量计算公式如下：

其中，W_q、W_k、W_v为待训练的参数；

步骤B42、选择能够整除2d₁的整数h，将步骤B41计算得到的q,k,v在最后一个维度上平均分成h个子向量，分别得到子向量序列[q₁；...；q_i；...；q_h]，[k₁；...；k_i；...；k_h]，[v₁；...；v_i；...；v_h]，其中是q的第i个子向量，是k的第i个子向量，是v的第i个子向量，i＝1,2,...h；

步骤B43、将q,k,v中对应的每个子向量输入到注意力机制中，得到输出的子向量，计算公式如下：

Head_i＝softmax(A_i)v_i

其中，A_i∈R^n×n,i＝1,2,...h为注意力相似性权重矩阵，为多头注意力机制输出的第i个子向量；

步骤B44、连接输出的h个子向量，并乘以参数矩阵W₂，得到输出向量c，计算公式如下：

c＝W₂[Head₁；Head₂；...；Head_h]

其中，[；]表示向量连接操作，W₂为待训练的参数矩阵；

步骤B45、将步骤B41得到的向量矩阵和步骤B44得到的输出向量c，依次经过非线性层、残差连接、层归一化后，得到向量计算公式如下：

其中，σ为sigmoid函数，layerNorm为层归一化，W₃、W₄为待训练的参数；

步骤B46、将步骤B45得到的向量u，依次经过非线性层、全连接前馈神经网络层、残差连接、层归一化后，获得文档的上下文表征向量计算公式如下：

T_v＝σ(uW₅)

v＝max(0,u+b₂)W₆+b₃

其中，σ为sigmoid函数，max为取最大值函数，W₅，W₆，W₇，b₂，b₃为待训练的参数。