[发明专利]一种基于注意力机制的多标签文本分类方法及系统在审
申请号: | 202111267036.2 | 申请日: | 2021-10-28 |
公开(公告)号: | CN113947161A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 郭绮雯;王勇 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 标签 文本 分类 方法 系统 | ||
本发明提出一种基于注意力机制的多标签文本分类方法及系统,涉及多标签文本分类的技术领域,解决了当前多标签文本分类方法大多忽略标签与文本之间关联性,在标签规模大,类别分布不均衡时,分类准确率低的问题,基于图嵌入算法优化标签之间的相似度,得到标签结构矩阵,保留标签的全局结构和局部结构,再通过构建基于卷积神经网络和注意力机制的多标签文本分类模型,利用卷积神经网络进行文本深层的特征提取,利用注意力机制捕获标签结构与文档内容的潜在关系,进行了更深层次的挖掘,能在标签规模大、标签分布不均衡的情况下,充分利用训练集中的标签信息,提高了多标签文本分类的准确度。
技术领域
本发明涉及多标签文本分类的技术领域,更具体地,涉及一种基于注意力机制的多标签文本分类方法及系统。
背景技术
随着互联网技术的蓬勃发展,信息的高速生成和传播使得社会各行各业都产生了翻天覆地的变化。从以往的“信息匮乏”到如今的“信息爆炸”,信息的几何级增长让海量的技术和资讯变得触手可及,但与此同时,各种无效的垃圾信息也很轻易地进入人们的生活。面对如此庞大的数据,通过人工处理的方式逐个归类选取人们所需的信息极度耗时。因此,如何对获取的资源信息进行准确快速分类,是一个十分迫切待解决的问题。
文本分类是自然语言处理的一项基本任务。传统的文本分类技术主要关注单标签分类,在单标签分类问题中,每个样本仅属于一个相应的类别,每个类别之间存在着明显的界限。但在某些场景之下,例如,在学术论文的分类中,假如一篇论文同时属于生物领域,也属于人工智能领域,仅把其划分至一个类别,则不全面,分类的粒度比较粗,也将导致资源信息无法被正确利用和归类。多标签分类要处理的即是现实生活中文本具有多个类别的任务,相比单标签分类,多标签文本分类在现实生活中更为常见,同时也更加困难。
目前,多标签分类方法主要有两种解决方法:基于问题转化的方法以及基于算法扩展的方法。基于问题转化的方法的思路简单直接:将多标签分类问题拆解成多个单标签分类问题,为每个子问题构造分类器,然后把所有的分类器集成起来。例如,Binaryrelevance为每一个类别都训练一个分类器,虽然这种方法很直观高效,但是由于没有考虑标签之间的相关性,算法的泛化性能可能无法达到最优,当标签数目大的时候,标签的子集数目大,分类效率会面临较大的挑战。第二种方法是基于算法扩展的方法,它是在传统的单标签分类问题上进行重新设计,使之适用于多标签分类问题。然而,标签和文本之间的相关性往往起到很重要的作用,现有方法大多忽视了这一关系。
2019年9月6日,中国发明专利(公布号:CN1102009823A)中公开了一种多标签文本分类方法及系统,首先获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;对标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。在该方案中,引入向量余弦距离作为标签和文本之间的相似度度量标准,建模了标签和文本之间的相关性,采用LSTM作为句子的底层特征抽取器,能抽取出句子序列具有全局信息的语义上下文向量;在其后接入CNN聚合句子中单词的周围邻域的局部信息,将全局信息和局部信息进行融合,能获得更准确表达句子的语义向量。
发明内容
为解决当前多标签文本分类方法大多忽略标签与文本之间关联性,在标签规模大,类别分布不均衡时,分类准确率低的问题,本发明提出一种基于注意力机制的多标签文本分类方法及系统,基于标签、文本之间的关联性,利用注意力机制捕获标签与文本之间的潜在关系,提高多标签文本分类的准确度。
为了达到上述技术效果,本发明的技术方案如下:
一种基于注意力机制的多标签文本分类方法,包括以下步骤:
获取包含标签的文本训练集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111267036.2/2.html,转载请声明来源钻瓜专利网。