[发明专利]融合标签关联的隐空间数据增强多标签文本分类方法在审
申请号: | 202210679320.9 | 申请日: | 2022-06-15 |
公开(公告)号: | CN115080689A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 线岩团;苗育华;王红斌;文永华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 云南盛恒知识产权代理有限公司 53224 | 代理人: | 马斌 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 标签 关联 空间 数据 增强 文本 分类 方法 | ||
本发明公开融合标签关联的隐空间数据增强多标签文本分类方法,通对批次中的数据进行编码,然后通过双向LSTM和attention进行训练,并对标签列表中的先验知识进行挖掘,最后将编码后的数据与得到的标签先验知识进行一种隐空间的匹配方法,构造出一批隐空间下的虚拟数据,再对多标签文本模型进行完善训练,完成多标签文本分类;与其他深度学习模型相比,所提出的方法在主要评价指标Micro_F1上具有较好的性能。本发明方法的Micro_F1达到了72.08%,比传统的机器学习方法BR、CC和LP算法在Micro_F1值上提高了5.18%、3.28%和2.38%,比神经网络模型中的LSTM、CNN‑RNN和SGM的Micro_F1值上提高了3.78%、2.38%和1.08%。
技术领域
本发明涉及融合标签关联的隐空间数据增强多标签文本分类方法,涉及自然语言处理技术领域。
背景技术
文本分类是自然语言处理中重要且经典的问题,就是将文本按照一定的规则分门别类。仅仅用传统的人工分类和概率统计的方法在巨量的文本信息中鉴别其文本类别,其所消耗的资源是数不胜数的,而且随着现如今数据量的急剧增大,各个类别需要更细粒度的划分,还存在一个样本与多个类别相关的情况,传统的单标签文本分类不能很好地达到人们的期望。因此,对于多标签文本分类的研究应运而生。标签文本分类是文本分类的子任务,是从标签集合中选中具体标签,为每个实例分配最相关的类标签子集。多标签分类在现实生活中有许多实际应用,当在面对含有多标签的新闻数据时,通过对主题进行处理,多标签文本分类方法可以准确定位其舆情的类别。该任务还适用于电子商务的产品标签分类、生物医学的文本注释和维基百科的类别标签分类等。
相比与单标签分类,多标签分类方法可以更好地适用于实际生活中,符合客观对象的特征和规律。但面对实际的文本里,标签的类别个数相当多,存在有些标签涉及的内容极少,导致很大的标签不平衡的问题,而且标签的输出空间会随着标签个数呈指数级增加。对于所有的多标签文本分类问题,当需要更细粒度的标签分类时,标签个数的增多、标签不平衡的问题也有待考究。现有的方法往往忽略标签之间的相关性,只考虑到不同标签对同一文本的影响,从而没有很好的挖掘出文本涉及到多个标签之间的关系。因此提出了一种融合标签关联的隐空间数据增强多标签文本分类方法。
发明内容
本发明的目的在于,提供一种融合标签关联的隐空间数据增强多标签文本分类方法,通对批次中的数据进行编码,然后通过双向LSTM和attention进行训练,并对标签列表中的先验知识进行挖掘,最后将编码后的数据与得到的标签先验知识进行一种隐空间的匹配方法,构造出一批隐空间下的虚拟数据,再对多标签文本模型进行完善训练,完成多标签文本分类。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
融合标签关联的隐空间数据增强多标签文本分类方法,包括通过对数据集及标签关系的预处理,挖掘出标签的先验知识;构建基于注意力机制的多标签文本分类模型;通过对标签的先验知识与已有数据的匹配,在隐空间中将其等量的联系数据变为一批新的虚拟数据;再对多标签文本模型进行完善训练,完成多标签文本分类。
进一步的,所述融合标签关联的隐空间数据增强多标签文本分类方法,包括以下步骤:
S1:采用python语言编写程序对数据集中的数据及其标签进行预处理,对文本中的停用词以及标签进行处理,使得每条文本与其标签按行对应的保存至csv文件中;
统计出所涉及的标签和文本数,计算出各个标签相互出现的次数,通过对训练数据的挖掘,发现出各类标签联系的先验知识;
S2:依次对文本进行词嵌入、编码,同时配合先验知识在原始训练批次中挖掘出与当前文本对应的联系数据,将原始批次中的数据进行扩充,然后通过attention层提取批次中文本对应的特征及标签相关的文本特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210679320.9/2.html,转载请声明来源钻瓜专利网。