[发明专利]一种基于图卷积神经网络的文本分类方法及系统在审
申请号: | 201911064089.7 | 申请日: | 2019-11-04 |
公开(公告)号: | CN110929029A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 唐钰葆;于静;曹聪;刘燕兵;谭建龙;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 神经网络 文本 分类 方法 系统 | ||
本发明公开了一种基于图卷积神经网络的文本分类方法及系统。本方法为:1)对于目标领域的文本训练集中的每一已类别标注文本,根据该文本中词的词频、逆文档率生成该文本的文本特征向量;将各文本特征向量组合生成一文本特征矩阵,即TF‑IDF矩阵,并根据词的词向量相似度构建一该文本训练集的图结构;2)利用所述图结构及文本特征矩阵训练图卷积神经网络;3)对于该目标领域的一待分类文本a,将该文本a的文本特征向量输入训练后的图卷积神经网络,得到该文本a的类别。本发明不仅考虑到文本的语义结构信息,而且从另一个角度捕捉文本的隐藏特征,分类准确性高。
技术领域
本发明属于图数据挖掘和图分类领域,尤其涉及一种基于图卷积神经网络的文本分类方法及系统。
背景技术
随着大数据的到来,数据规模呈现爆炸性增长趋势,海量异构数据间关系逐渐紧密。图作为常用的表示事物之间的关系的一类抽象数据结构。实际生活中有紧密关联的数据元素,比如社交网络、学术网络等都能用图数据表示。实际问题可以转化为图的技术问题、数据挖掘。比如社交软件微信,将微信号作为节点,微信号间互相的“好友关系”、“点赞评论”等关系作为图的边,从而构建图结构数据。其实际问题可以转化为图的技术问题、数据挖掘,图数据分类是大规模数据处理中的研究重点。图分类,即将不同类型的图自动区分、分类,主要应用有暴恐行为识别、社交网络关系分类、化学分子分类等。
图分类可以为不同领域的数据分析和理解提供重要的技术手段,相关研究和应用方兴未艾。尽管图分类在社会各个领域都有着重要作用,但是图分类仍然面临着许多技术挑战。
图数据具有很强的局部耦合性,节点之间存在关系,因此图的表示需要包含图的结构信息和属性。现有的数据表示方式主要是针对序列化的文档、结构化的图像等,难以扩展到图的表示,因此图分类面临着严峻的挑战。
同时另一方面,图的特征表示,即通过结点间的连通关系计算结点的特征表示,与使用特征集训练分类器是两个独立的过程,每个过程都需要独立设计和优化,每个步骤即使最优,也难以保证得到整体效果最优的分类器。
上述可知,图分类在各领域有着重要地位,但同时存在着局部耦合性强、特征表示难等挑战。在图分类领域,有上述的化学分子分类、关系网络实体分类等,在本申请中,针对文本分类任务。文本分类,根据给定的带标签的文本内容,进行一定的数据预处理,使用一些算法或是模型对文本进行分类。文本分类方法主要有两大类:第一类是传统文本分类技术,由特征提取和使用分类器分类两部分组成。第二类是,使用深度学习方法,不用人工提取特征,通过深度学习模型学习文本中的特征、特有模式规律等,从而训练得到一个分类模型,然后利用该分类模型可以实现对文本的分类。常见的模型有LSTM、CNN、RNN、GRU等等。这些方法尽管有各自的优点,但难以保证得到整体效果最优的分类模型。
发明内容
本申请提出一种基于图卷积神经网络的文本分类方法及系统。本发明中的文本为自然语言文本,比如新闻的类别,娱乐新闻、财经新闻、军事新闻等文本。其基本思想是,将文本表示为图结构,兼顾文本语义结构关系以及文本的特征,构造图卷积神经网络实现图数据的端到端的分类,即直接将图结构的文本信息及文本特征作为输入,输出即为每个文本的类别,即“标签”。通过将文本表示为图结构,可以考虑到文本的语义结构信息,从另一个角度捕捉文本的隐藏特征,通过图卷积神经网络后在处理结果上能与主流文本分类方法抗衡。本发明的算法流程图如图1所示。
一种基于图卷积神经网络的文本分类方法,其步骤包括:
1)对文本进行分词、去掉无意义词、去掉标点符号,计算文本的TF-IDF矩阵等预处理;
2)对步骤1)得到的预处理后文本构建图结构,词作为图的节点,与一个节点最相似(计算两个词向量的余弦相似度)的若干个词(本申请选取8个词)作为该词的邻居节点;
3)图结构预处理,计算图的拉普拉斯矩阵等;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911064089.7/2.html,转载请声明来源钻瓜专利网。