[发明专利]融合标签关联的隐空间数据增强多标签文本分类方法在审
申请号: | 202210679320.9 | 申请日: | 2022-06-15 |
公开(公告)号: | CN115080689A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 线岩团;苗育华;王红斌;文永华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 云南盛恒知识产权代理有限公司 53224 | 代理人: | 马斌 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 标签 关联 空间 数据 增强 文本 分类 方法 | ||
1.融合标签关联的隐空间数据增强多标签文本分类方法,其特征在于:包括通过对数据集及标签关系的预处理,挖掘出标签的先验知识;构建基于注意力机制的多标签文本分类模型;通过对标签的先验知识与已有数据的匹配,在隐空间中将其等量的联系数据变为一批新的虚拟数据;再对多标签文本模型进行完善训练,完成多标签文本分类。
2.如权利要求1所述的融合标签关联的隐空间数据增强多标签文本分类方法,其特征在于:包括以下步骤:
S1:采用python语言编写程序对数据集中的数据及其标签进行预处理,对文本中的停用词以及标签进行处理,使得每条文本与其标签按行对应的保存至csv文件中;
统计出所涉及的标签和文本数,计算出各个标签相互出现的次数,通过对训练数据的挖掘,发现出各类标签联系的先验知识;
S2:依次对文本进行词嵌入、编码,同时配合先验知识在原始训练批次中挖掘出与当前文本对应的联系数据,将原始批次中的数据进行扩充,然后通过attention层提取批次中文本对应的特征及标签相关的文本特征;
S3:基于已挖掘出的标签相关的先验知识与文本特征进行交叉融合,使得联系数据的标签特征以及文本特征得到变化,成为一批隐空间下的虚拟数据;
S4:对原始的交叉熵损失函数进行修改,将增强后的数据与原始数据放入多标签分类模型中进行训练,将隐空间下虚拟数据的损失以及原始数据得到的损失经过一定的比率结合,不断完善分类模型,获得多标签文本分类结果。
3.如权利要求2所述的融合标签关联的隐空间数据增强多标签文本分类方法,其特征在于:所述S1通过下载网上公开的AAPD的原始数据集,预处理后通过给出示例样本{S1,S2,S3,S4},以及样本在标签{L1,L2,L3,L4}空间下的标签表示,通过对标签之间相互出现次数的统计,得出标签共现矩阵其中标签对自身的影响为0,再通过对矩阵的行进行归一化处理,得到样本下标签之间的得分矩阵L。
4.如权利要求2所述的融合标签关联的隐空间数据增强多标签文本分类方法,其特征在于:所述S2是构建基于注意力机制的多标签文本分类模型的策略,首先在传入模型前将训练批次中的数据量定位128,在批次化数据中,配合先验知识挖掘出与原始文本对应的联系数据,使得批次中的数据量扩充为256;
然后通过词嵌入模块对输入文本进行词嵌入处理,获得标签和文本词汇的嵌入表示,下载并使用斯坦福大学公开的Glove词袋,使用100d-Glove方法并通过词嵌入矩阵和标签嵌入矩阵将文本中的单词{w1,w2,…,wn}转化为词向量表示x={x1,x2,…,xn},其中xi为第i个单词的词向量表示;并将xi通过一个嵌入矩阵V∈Rk×|w|,其中|w|为词汇表的大小,k为嵌入向量的维数;
然后,使用双向LSTM从两个方向读取文本序列x,并计算每个单词的隐藏表示,公式如下:
通过连接两个方向的隐藏状态,得到第i个单词的最终隐藏表示包含以第i个字为中心的序列信息。
5.如权利要求2所述的融合标签关联的隐空间数据增强多标签文本分类方法,其特征在于:
对于通过attention层,采用4个多头自注意力机制抽取每个字的上下文特征;假设给定一个序列的向量一个单头自我注意力将H投影到三个不同的矩阵:Q矩阵为K矩阵为V矩阵为输出矩阵的维度为然后使用缩放的点积注意力来获取输出表示:
Q,K,V=HWQ,HWK,HWV
。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210679320.9/1.html,转载请声明来源钻瓜专利网。