[发明专利]基于层注意Transformer网络的长文档分类方法在审

申请号：	202110861311.7	申请日：	2021-07-29
公开（公告）号：	CN113723458A	公开（公告）日：	2021-11-30
发明（设计）人：	胡永利;陈普满;刘腾飞;尹宝才;孙艳丰	申请（专利权）人：	北京工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06F16/35
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意 transformer 网络文档分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于层注意Transformer网络的长文档分类方法，其特征在于：该方法包括如下步骤，

步骤一：提取节级别特征

为了完全利用文档的结构信息；将给定的文档按照自身的段落顺序分成几个段落，将一个段落称为一个节；将文档表示为S＝{s₁，...s_m}，其中s_i表示的是第i个节，m表示每个文档所包含的节数量；首先通过预训练语言模型提取每个节的特征；SciBERT是在高质量、大规模的标签文档数据上预训练的语言模型，这些标签文档数据包含与实验中使用的长文档数据集相似的样本；将每个节输入预训练语言模型SciBERT来捕获文档的每个节的特征，这个过程可以被描述为：

其中，f表示的是SciBERT，s_i表示文档的第i个节，表示SciBERT要学习的模型参数；v_i表示通过SciBERT获得的第i个节的特征；将这个模块定义为节内Transformer，通过节内Transformer获得单个文档的节级别特征m表示的是文档所包含的节数量，d表示的是SciBERT提取的节特征的维度；

步骤二：节特征之间的交互

节级别的特征表示每个节的语义信息；采用残差融合门代替残差块的N层Transformers，将这个模块命名为节间R-Transformer；

对于第n层Transformer，其中1≤n≤N；一个多头自注意层gⁿ(·)和正则化首先被用于节级别特征，此过程可以表示为，

oⁿ＝norm(gⁿ(vⁿ))

其中vⁿ表示输入第n层Transformer的节级别特征，norm表示正则化操作，oⁿ表示经过第n层Transformer中的多头自注意层和正则化被更新得到的特征；

为了混合节级别的局部和全局上下文特征，使用残差融合门动态地合并多头自注意的输入vⁿ和输出oⁿ；残差融合门的序列输出表示为如下公式，

G1＝sigmoid(W^g11oⁿ+W^g12vⁿ+b^g1)，

eⁿ＝G1⊙vⁿ+(1-G1)oⁿ

其中，sigmoid是激活函数，W^g11，W^g12是第一个残差融合门的参数，b^g1是偏差，⊙表示两个矩阵逐元素相乘；在得到残差融合门的输出eⁿ之后，一个带有正则化操作的全连接层被用于eⁿ，节级别间最终的特征交互通过另一个残差融合门实现，

G2＝sigmoid(W^g21norm(fⁿ(eⁿ))+W^g22eⁿ+b^g2)，

vⁿ⁺¹＝G2⊙eⁿ+(1-G2)⊙norm(fⁿ(eⁿ))

其中，sigmoid是激活函数，W^g21，W^g22是第二个残差融合门的学习参数，b^g2是偏差，norm表示的是正则化操作，fⁿ(·)表示的是一个全连接层；通过第n层带有残差融合门的节间Transformers，得到第n层节间交互级别的特征vⁿ⁺¹，最后通过N层的节间R-Transformer得到文档交互特征v^N；

步骤三：获取文档的最终表示

通过一个Context Fusion模块来获得文档的最终表示；首先通过一个特征融合门来融合节内Transformer得到的节级别特征v¹和节间R-Transformer得到的节之间的交互特征v^N；具体的融合步骤为，

F＝σ(W^f1[v¹，v^N])+b^f1)，

G＝sigmoid(W^f2[v¹，v^N]+b^f2)，

u＝G⊙F+(1-G)⊙v¹

其中，W^f1，W^f2表示的是特征融合门学习的参数，b^f1，b^f2是偏差，σ和sigmoid表示的是激活函数，[·，·]是级联操作，⊙表示两个矩阵之间的逐元素相乘；u为特征融合门的输出；

为了得到文档的最终表示，source2token自注意模块的操作如以下公式所示，

p(u)＝softmax(W^Tσ(W^su+b^s))+b)

其中，softmax表示沿着列进行归一化操作，W^T，W^s指的是模块的学习参数，b^s，b是偏差，σ表示激活函数；s是文档的最终表示；

步骤四：长文档分类

通过一个线性层操作来对长文档的表示s进行分类；操作过程如下所示，

p＝softmax(W^cs+b^c)