[发明专利]一种基于图模型的深度学习多标签文本分类方法有效

专利信息
申请号: 202111201995.4 申请日: 2021-10-15
公开(公告)号: CN113806547B 公开(公告)日: 2023-08-11
发明(设计)人: 戴新宇;刘盾 申请(专利权)人: 南京大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/284;G06F40/289;G06N3/0464;G06N3/08
代理公司: 江苏圣典律师事务所 32237 代理人: 胡建华;于瀚文
地址: 210023 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模型 深度 学习 标签 文本 分类 方法
【权利要求书】:

1.一种基于图模型的深度学习多标签文本分类方法,其特征在于,包括如下步骤:

步骤1,数据预处理;

步骤2,构建文本图;

步骤3,构建模型输入;

步骤4,构建深度学习多标签文本分类模型;

步骤5,训练模型;

步骤6,根据步骤5训练的模型得到文本分类结果;

步骤1包括:

设初始多标签数据为:其中,texti表示第i个文本,label_seti表示texti对应的标签,N表示数据集D中样本个数,对数据集D中样本进行数据预处理,具体包括如下步骤:

步骤1-1,进行分词、去除停止词、英文大写转小写;

步骤1-2,统计数据集D中的文本中的单词频率word_frequence,删除出现次数小于X1的单词:

word_frequence={word1:count1,word2:count2,…,wordε:countε}

其中,wordε:countε表示统计得到的第ε个单词wordε及其出现频率countε,ε=|vocabulary|,vocabulary为数据集中文本的词汇量,ε表示单词总数;数据集D经过预处理后,表示为其中,xi表示预处理后的第i个文本,yi∈{0,1}L表示xi对应的标签,L为数据集标签总数;

将数据集按比例划分为训练集、测试集和验证集,分别用于模型训练,模型性能测试和训练过程中模型验证;

步骤2包括:

对于数据集D’,构造文本图G=(V,E,A);

其中,V(|V|=Z)是图中节点集,图中的节点为文本、单词和标签,Z=N+L+|vocabulary|为数据集中文本数量、词汇量和标签数量的和,E是图中的边集,A∈RZ×Z表示图的邻接矩阵,RZ×Z代表二维实数矩阵,两个维度的大小分别为Z、Z,A表示为:

其中,PMI(i,j)为i,j的互信息;TF-IDFij表示文本和单词相关性,TF是词频;IDF是逆文本频率指数;

其中,当i,j都是单词时,Aij表示单词之间的互信息,计算方式如下:

其中,函数#W()统计了数据集中出现单词i、单词j以及两个单词共同出现的滑动窗口数量,#W为滑动窗口总数,互信息PMI(i,j)为负数时用0代替,p(i)是单词i基于滑动窗口的统计概率,p(i,j)为单词i和单词j基于滑动窗口共同出现的概率,p(j)是单词j基于滑动窗口的统计概率;

当i,j都是标签时,Aij表示标签之间互信息,计算方式如下:

其中,函数#()统计了目标标签在数据集的训练集中的出现次数,training_sample为训练样本,PMI(i,j)为负数时用0代替;

当i,j分别为文本和单词时,Aij表示文本和单词的相关性,计算方式如下:

TF-IDFij=TF*IDFij

其中,X2表示一个单词在训练集文本中出现的次数,X3表示文本总词数,X4表示语料中文本数,X5表示包含所述单词的文本数;

当i,j为文本和标签时,Rij表示文本和标签的相关性,计算方式如下:

TF-IDFij=TF*IDFij

其中,X6表示一个标签在训练集文本中出现次数,X7表示文本标签总数,X8表示训练集文本数,X9表示包含所述标签的训练集文本数;

当i=j时,Aij设置为默认值1;

其它情况下,Aij为0;

步骤3包括:

对于数据集D’中任意一个待分析样本(x,y),将其表示为:

x=[1,0,0,0,…,0]

y=[1,0,0,1,…,0]

其中,x∈RZ为表示序号的独热编码向量,y∈RL表示x对应的标签集的one-hot表示,L表示标签总数;

初始输入矩阵X∈RZ×Z,包含了所有图中节点的one-hot向量;

步骤4包括:

建立深度学习多标签文本分类模型,深度学习多标签文本分类模型基于图卷积神经网络GCN的提取文本图中文本、标签和单词的全局特征,基于注意力机制融合标签特征和单词特征学习和标签相关的文本特征,将与标签相关的文本特征和文本图中的文本特征根据自适应权重进行融合,作为最终的文本特征,最终融合了标签特征的文本特征经过分类器得到文本对于标签的预测概率;每种标签都会对应一个基于全连接层的特征二分类器;文本对所有标签都学习一个融合了标签特征的文本特征,为每一种标签相关的特征训练一种分类器,分类器由多层感知机实现,经过特定标签的分类器,最终得到所有标签的分类结果其中为第p个位置上的标签预测概率;

步骤4还包括:在基于图卷积神经网络GCN的全局信息提取阶段,包括以下内容:

全局特征提取阶段输入为初始输入矩阵X;

全局特征提取采用了两层GCN网络,每一层图卷积使得节点与其邻居节点进行信息交换,输出图中所有节点的表示;

每一层拥有独立的参数矩阵Wi,输出的特征维度与参数相关;

前一层的节点特征矩阵,作为下一层输入,取第二层的输出特征,作为文本图中节点的特征;

基于GCN网络的每一层间的信息迭代如下:

Li∈RZ×k为第i层输出,Z为图中节点总数,k为节点特征维度,由参数Wi控制,ρ()为激活函数,前一层的输出特征作为下一层的输入特征;第一层的输入特征为初始输入矩阵X,取第二层的输出作为文本图中的结点特征;为步骤2中文本图的邻接矩阵A经过对称归一化后的矩阵,计算方式如下:

Dii=∑jAij

其中Dii为邻接矩阵A的度矩阵;

步骤4还包括:基于注意力机制的标签相关文本特征提取,包括以下内容:

基于GCN提取出文本图中文本、标签和单词节点的全局特征:基于注意力机制,对于长度为m的文本k和标签i,利用文本中的单词特征和标签特征,学习与标签相关的文本特征dik,计算方式如下:

其中va,Wa,Ua为参数,eij为计算的中间结果,exp()是以自然常数e为底的指数函数,wj和li分别为GCN网络提取的文本中的单词特征和标签特征,αij为标签对文本单词的权重,根据权重参数融合文本中的单词特征,最终得到与标签相关的文本特征dik

步骤4还包括:获取最终文本分类特征,并进行分类,包括以下内容:

将与标签相关的文本特征和文本图中的文本特征进行自适应融合,得到最终的文本特征dik-fusion,计算方式如下:

dik-fusion=βkdk+(1-βk)dik

其中为参数,sigmoid()为激活函数,与标签相关的文本特征dik和文本图中的文本特征dk经过全连接层获得信息融合的权重参数βk,根据信息融合权重,融合dik和dk,得到最终的文本特征dik-fusion,经过多层感知机构成的分类器得到最终的结果;

步骤5包括:

将训练集数据输入深度学习多标签文本分类模型,提取文本特征后,经过多层感知机得到标签预测概率,采用交叉熵损失函数,使用Adam优化器进行训练,多标签文本分类的交叉熵损失函数l如下:

其中,yij为第i个样本对于第j个标签的实际概率,为第i个样本对于第j个标签的预测概率,最终得到训练好的深度学习多标签文本分类模型;

步骤6包括:

将测试集数据输入训练好的深度学习多标签文本分类模型,最终输出多标签文本分类结果,评估指标包括微观F1和汉明损失HL,计算方式如下:

其中,Micro-F1表示微观F1,Micro-F1需统计预测结果的样本信息,tpi为第i个标签的真阳性样本数量,fni为第i个标签的假阴性样本数量,fpi为第i个标签的假阳性样本数量;为单个样本的汉明损失,y为样本的实际标签概率,为样本的标签预测概率,yi、分别为样本在第p个标签上的实际概率和预测概率,函数Ⅱ为指示函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111201995.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top