[发明专利]一种基于图模型的深度学习多标签文本分类方法有效

专利信息
申请号: 202111201995.4 申请日: 2021-10-15
公开(公告)号: CN113806547B 公开(公告)日: 2023-08-11
发明(设计)人: 戴新宇;刘盾 申请(专利权)人: 南京大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/284;G06F40/289;G06N3/0464;G06N3/08
代理公司: 江苏圣典律师事务所 32237 代理人: 胡建华;于瀚文
地址: 210023 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模型 深度 学习 标签 文本 分类 方法
【说明书】:

发明提供了一种基于图模型的深度学习多标签文本分类方法,本发明分析了现有的CNN网络和RNN网络在文本信息提取上的弱点,以及多标签文本分类任务中使用标签信息的不足,提出了一种基于图模型的深度学习多标签文本分类方法。该方法借助图结构的灵活性,构造文本、单词和标签的异构图,通过GCN网络学习相关表示,为了有效利用标签信息,利用注意力机制将文本中的单词特征和标签特征进行融合,学习与标签相关的文本特征,最终通过注意力机制将与标签相关的文本特征和图中学习到的文本特征进行融合,作为模型最终提取的文本特征。通过对比实验,发现该方法在多标签文本分类的多个指标上有所提升。

技术领域

本发明属于文本信息处理领域,尤其涉及一种基于图模型的深度学习多标签文本分类方法。

背景技术

随着互联网时代的到来,日常生活中的信息呈爆炸的趋势增长,其中文本作为一种基础的信息载体,包含的海量信息。人们需要对文本信息进行有效的整理分类,进而高效的获取文本信息。文本分类具有广泛的现实应用场景,如垃圾邮件过滤,论文归档,新闻舆情分析等。然而现实生活中文本分类往往涉及多标签文本分类,即一个文本可以对应多个标签,如新闻和论文中可同时包含多个主题标签,这使得文本信息更加丰富,文本和标签的对应关系也更加复杂,已有的方法难以适用,这使得多标签文本分类成为自然语言处理领域的一个研究热点。

现有的多标签文本分类问题的解决思路主要有两种,其一是将多标签文本分类转化为普通的文本分类问题,利用现有的文本分类方法解决问题;另一种是利用深度学习优秀的信息提取能力,融合包括标签信息、文本句法信息、文本语义信息在内的多种信息,解决多标签文本分类问题。但是这些方法在性能上仍有所欠缺,究其原因,存在下面几个问题:

首先,文本特征的获取,依赖常用的神经网络,卷积神经网络(ConvolutionalNeural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)。这些网络往往关注于局部的文本信息,而忽略的信息的全局关联,在文本信息不足时,无法捕捉到合理的文本特征。而可以捕捉全局信息的图卷积神经网络(Graph Convolutional Network,GCN),因为文本构图等难题,则未收到广泛重视。

其次,现有工作忽略了对多标签文本分类任务有着重要作用的标签信息。普通的文本分类中文本只对应一个标签,而多标签文本分类任务中文本可对应多个标签。经过观察不难发现,多标签文本分类任务中,属于同一文本的标签往往具有一定的关联,如论文的多个主题标签往往是实际相关的。合理利用标签关联可辅助多标签文本分类任务。而部分工作虽然注意到标签信息,但往往只利用了标签的文本信息和标签的共现信息中的一者。

发明内容

发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于图模型的深度学习多标签文本分类方法,

本发明提出了一种基于图模型的深度学习多标签文本分类方法。该方法利用图结构的灵活性,构造文本中的信息关联,文本图中包括文本、单词和标签节点,节点间的边可以反映节点的语义和共现信息;基于GCN网络捕捉全局的文本、单词和标签特征;然后,利用注意力集合融合文本和标签的信息;最终,融合与标签相关的文本特征和图中的文本特征,用于多标签文本分类。实验表明,在多标签文本分类任务中,该方法在性能上有所提升,且具有良好的可解释性。

为实现上述目的,本发明采用如下技术方案:

一种基于图模型的深度学习多标签文本分类方法,包括以下步骤:

步骤1,数据预处理;

步骤2,构建文本图;

步骤3,构建模型输入;

步骤4,构建深度学习多标签文本分类模型;

步骤5,训练模型;

步骤6,根据步骤5训练的模型得到文本分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111201995.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top