[发明专利]基于层注意Transformer网络的长文档分类方法在审
申请号: | 202110861311.7 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113723458A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 胡永利;陈普满;刘腾飞;尹宝才;孙艳丰 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06F16/35 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意 transformer 网络 文档 分类 方法 | ||
1.基于层注意Transformer网络的长文档分类方法,其特征在于:该方法包括如下步骤,
步骤一:提取节级别特征
为了完全利用文档的结构信息;将给定的文档按照自身的段落顺序分成几个段落,将一个段落称为一个节;将文档表示为S={s1,...sm},其中si表示的是第i个节,m表示每个文档所包含的节数量;首先通过预训练语言模型提取每个节的特征;SciBERT是在高质量、大规模的标签文档数据上预训练的语言模型,这些标签文档数据包含与实验中使用的长文档数据集相似的样本;将每个节输入预训练语言模型SciBERT来捕获文档的每个节的特征,这个过程可以被描述为:
其中,f表示的是SciBERT,si表示文档的第i个节,表示SciBERT要学习的模型参数;vi表示通过SciBERT获得的第i个节的特征;将这个模块定义为节内Transformer,通过节内Transformer获得单个文档的节级别特征m表示的是文档所包含的节数量,d表示的是SciBERT提取的节特征的维度;
步骤二:节特征之间的交互
节级别的特征表示每个节的语义信息;采用残差融合门代替残差块的N层Transformers,将这个模块命名为节间R-Transformer;
对于第n层Transformer,其中1≤n≤N;一个多头自注意层gn(·)和正则化首先被用于节级别特征,此过程可以表示为,
on=norm(gn(vn))
其中vn表示输入第n层Transformer的节级别特征,norm表示正则化操作,on表示经过第n层Transformer中的多头自注意层和正则化被更新得到的特征;
为了混合节级别的局部和全局上下文特征,使用残差融合门动态地合并多头自注意的输入vn和输出on;残差融合门的序列输出表示为如下公式,
G1=sigmoid(Wg11on+Wg12vn+bg1),
en=G1⊙vn+(1-G1)on
其中,sigmoid是激活函数,Wg11,Wg12是第一个残差融合门的参数,bg1是偏差,⊙表示两个矩阵逐元素相乘;在得到残差融合门的输出en之后,一个带有正则化操作的全连接层被用于en,节级别间最终的特征交互通过另一个残差融合门实现,
G2=sigmoid(Wg21norm(fn(en))+Wg22en+bg2),
vn+1=G2⊙en+(1-G2)⊙norm(fn(en))
其中,sigmoid是激活函数,Wg21,Wg22是第二个残差融合门的学习参数,bg2是偏差,norm表示的是正则化操作,fn(·)表示的是一个全连接层;通过第n层带有残差融合门的节间Transformers,得到第n层节间交互级别的特征vn+1,最后通过N层的节间R-Transformer得到文档交互特征vN;
步骤三:获取文档的最终表示
通过一个Context Fusion模块来获得文档的最终表示;首先通过一个特征融合门来融合节内Transformer得到的节级别特征v1和节间R-Transformer得到的节之间的交互特征vN;具体的融合步骤为,
F=σ(Wf1[v1,vN])+bf1),
G=sigmoid(Wf2[v1,vN]+bf2),
u=G⊙F+(1-G)⊙v1
其中,Wf1,Wf2表示的是特征融合门学习的参数,bf1,bf2是偏差,σ和sigmoid表示的是激活函数,[·,·]是级联操作,⊙表示两个矩阵之间的逐元素相乘;u为特征融合门的输出;
为了得到文档的最终表示,source2token自注意模块的操作如以下公式所示,
p(u)=softmax(WTσ(Wsu+bs))+b)
其中,softmax表示沿着列进行归一化操作,WT,Ws指的是模块的学习参数,bs,b是偏差,σ表示激活函数;s是文档的最终表示;
步骤四:长文档分类
通过一个线性层操作来对长文档的表示s进行分类;操作过程如下所示,
p=softmax(Wcs+bc)
其中,softmax是归一化操作,Wc是线性层的参数,bc是偏差;p是文档的分类概率;分别使用交叉熵损失和二分类交叉熵损失来进行单标签分类和多标签分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110861311.7/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法