[发明专利]一种基于混合注意力的层级多标签文本分类方法在审
申请号: | 202210216140.7 | 申请日: | 2022-03-07 |
公开(公告)号: | CN114896388A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 马小林;钟港;旷海兰;刘新华 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F40/30;G06F40/289;G06F40/242;G06F40/216;G06F40/183;G06F40/151;G06F40/126;G06N3/04 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 注意力 层级 标签 文本 分类 方法 | ||
本发明提供了一种基于混合注意力的层级多标签文本分类方法,该方法使用预训练的词向量作为词嵌入,使用Bi‑GRU对输入的词嵌入作初步的特征提取;使用图卷积神经网络建模层级标签结构体系,并生成蕴含标签关联性的标签表示;使用多个卷积核大小不同的卷积神经网络进一步对Bi‑GRU的输出做不同粒度的局部特征提取,分别作最大池化后拼接成一个文本特征,并利用基于标签表示的注意力对此文本特征进一步特征提取;同时,使用自注意力机制对Bi‑GRU的输出进行全局特征提取,对基于标签表示的文本特征及基于自注意力机制表示的文本特征进行自适应融合,得到基于混合注意力的文本表示,最后再通过关系网络提取标签之间的信息,并通过多层感知机得到最后的分类结果。
技术领域
本发明涉及计算机信息技术领域与自然语言处理领域,更具体地,涉及一种基于混合注意力的层级多标签文本分类方法。
背景技术
互联网时代的到来,使人们能够更加便捷地接触到各类信息,与此同时,各种媒体数据也在源源不断地产生,这为挖掘互联网上有价值的数据提供了基础条件,如果对海量的数据缺乏高效的管理方式与获取知识的手段,无疑是一种浪费。在数据挖掘中,文本分类问题是核心的问题之一。
多标签文本分类的任务是在给定的标签集合中选择与文本内容最相关的子集。在实际场景中,很多数据与标签集合中的多个标签相关,这些标签可以简洁地展现出数据的具体内容,使人们能够更加方便有效地管理海量数据,对数据进一步分析。层级多标签文本分类是多标签文本分类的一种特例,其标签体系具有层次化的结构,通用的多标签文本分类算法没有考虑到层次化标签结构对分类效果的影响,没有充分利用到文本标签间的关联信息,导致进行分类时候对其所属类别识别不够准确,特别是对存在长尾分布的数据,其分类效果仍有较大的提升空间。同时,现有模型大多关注于文本的局部特征,或者全局特征,缺乏对局部特征及全局特征综合考虑,以至于对涉及分类的重要特征捕捉不足。
发明内容
针对现有技术的不足,本发明提供一种基于混合注意力的层级多标签文本分类方法,通过利用标签层次结构进行标签语义表示,以及充分利用文本的全局及局部语义信息来达到改善层级多标签文本分类的性能问题。
为了实现上述目的,本发明所采用的技术方案为:一种基于混合注意力的层级多标签文本分类方法,该方法包括如下步骤:
S1,多标签文本数据预处理;文本数据用于训练模型,它由文本内容以及其对应的标签集构成,整个数据集所有的标签类别之间是一个树状图,具有层级关系,对于树图而言,它是由很多个节点构成,每一个节点代表一个标签类别,数据集中每个样例文本对应的标签来自于这个标签树图上的节点;
S2,针对文本标签,获取层级分类体系的先验层级信息,所述先验层级信息指的是标签之间互相依赖的先验概率,可以通过计算父标签与子标签之间的转移概率得到;
S3,构建深度学习层级多标签文本分类模型;
所述深度学习多标签文本分类模型包括词嵌入模块、文本编码模块、标签编码模块,基于标签注意力机制文本表示模块、基于自注意力机制的文本表示模块、特征融合模块、向量回归层,关系网络模块,标签概率预测层;
S4,输入数据集预处理后的文本数据到模型训练;模型训练完成之后,利用训练好的模型对多标签文本进行分类。
上述技术方案中,步骤S1包括,对数据集D中样本进行数据预处理,具体包括如下步骤:步骤1.1,进行分词、去除停止词、去除标点符号;步骤1.2,统计数据集D中的文本中的单词频率word_frequence,删除出现次数小于X1的单词,将过滤后的单词记录,构建单词表。数据集D经过预处理后,将数据集D按一定比例划分为训练集,验证集,测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210216140.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水利工程施工止水装置
- 下一篇:一种多功能擦窗器