[发明专利]基于层注意Transformer网络的长文档分类方法在审
申请号: | 202110861311.7 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113723458A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 胡永利;陈普满;刘腾飞;尹宝才;孙艳丰 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06F16/35 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意 transformer 网络 文档 分类 方法 | ||
本发明公开了基于层注意Transformer网络的长文档分类方法,步骤一:提取节级别特征;步骤二:节特征之间的交互;步骤三:获取文档的最终表示;步骤四:长文档分类;在验证和测试集方面,提出的HATN网络模型在F1分数下的所有数据集上都优于所有基线,说明的模型能够捕获文档的长时依赖以及实现不同节之间的更高级别的特征交互,从而提高了文档分类的性能。此外,长文档分类模型MLP over SciBERT、LSTM over SciBERT、Longfromer和HATN比传统方法性能更好,这个结果说明得益于注意力和大量的语料库,预训练语言模型对于文档分类的优越性。HATN模型在所有数据集上都得到了一致的改进,证实了该方法的有效性,因为文档的结构信息和层次交互网络带来了改进。
技术领域
本发明涉及基于层注意Transformer网络的长文档分类方法,属于用于自然语言处理领域中的长文档分类方法。
背景技术
如今,由于数字和在线出版物的迅速增长,形成了一个典型的大数据时代。面对大规模的文献数据,研究人员进行了许多有价值的探索,如知识图构建、信息提取、引文关系研究和文献分类。作为自然语言处理的一项基本任务,文档分类在许多场景中发挥着重要作用,如个性化文档推荐、文档管理和文档分析。
早期的文档分类方法将文档建模为文本,并采用序列学习模型来提取其特征,如递归神经网络(RecurrentNeural Networks,RNNs)对输入文本的每个单词的词向量进行长期依赖捕获得到文本特征。此外,基于卷积神经网络(Convolutional Neural Networks,CNNs)的模型由于能够捕获文本图的多功能特征也实现了很优越的文档分类性能。其次,考虑到文本复杂的语义关系,一些基于图的学习模型也被提出,如文本图卷积网络(TextGraph Convolutional Network,TextGCN)和张量图卷积网络(Tensor GraphConvolutional Network,TensorGCN)。最近,一组预先训练好的语言模型,如ELMO(Embeddings from Language Models,ELMO)、GPT(Generative Pre-Training,GPT)和BERT(Bidirectional Encoder Representations from Transformers,BERT)已经被开发出来,由于这些模型包含的多层注意力机制以及在大量的语料库上进行预训练,使得他们被广泛地用于许多自然语言处理任务,如机器翻译,阅读理解。对于特定的任务,只需要将预训练的语言模型在相应的数据集上进行微调。通过这种方法,一些研究人员使用BERT尝试了一些短文档分类,并取得了优异的结果。然而,这些方法只能将有限的标识作为其输入,这阻碍了它们在长文档分类上的适用性。
此外,一些方法使用顺序切割或滑动窗口将长文档任意处理成短的段落,然后由预训练的语言模型获得每个段落的特征,最后通过平均池化,最大池化,自注意或长短时记忆网络(Long Short Term Memory,LSTM)来聚合所有段落的特征。然而,这些方法只考虑了句子浅层的特征交互,忽略了句子的自然边界,从而导致段落的语义不完全性。其他方法遵循减少自注意力的复杂度用上千个标识来表示文档。但目前它们很少被成功地应用于BERT。更重要的是,在这些方法中文档的章节层次结构还没有被探索。
发明内容
为解决现有模型的有限输入标识以及未提取文档的层次结构问题,工作的主要发明可以总结如下,提出了一种新的考虑文档层次结构信息的用于长文档分类的层注意Transformer网络;为了在不同级别的Transformer之间传播信息,提出了两个特征融合门来增强信息的相互作用;在三个数据集上进行了大量的实验,证明了该模型在长文档分类中的优越性。
提出的基于层注意Transformr网络进行长文档分类的步骤分为以下四个步骤:
步骤一:提取节级别特征
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110861311.7/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法