[发明专利]一种基于图卷积神经网络的文本分类方法、系统有效
申请号: | 201911393728.4 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111209398B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 李建欣;邵明来;周佰聪;孙佩源;邰振赢 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/042;G06N3/047;G06N3/045;G06N3/0464;G06N3/08 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 神经网络 文本 分类 方法 系统 | ||
本发明通过图神经网络建模的方法,设计一种基于图卷积神经网络的文本分类方法、系统,其方法主要包括三个步骤:输入文本,相似性图的构建;深度学习模型的构建;由相似性图和深度学习模型构成文本分类方法总体模型,进行文本分类。通过上述方法,我们基于文本相似性图、图卷积网络和图注意力网络,提出了一种高效的文本分类方法,即只需要输入源文本,即能够自动对文本进行分类,并在模型的基础上结合硬件构成系统。
技术领域
本发明涉及神经网络领域,尤其涉及一种基于图卷积神经网络的文本分类方 法。
背景技术
近来,已经有大量的研究集中在图结构的数据上,图是可以在很多方面使用 的数据结构。图卷积网络(GCN)为我们提供了一种非常有效的方法来分析图 结构数据。它是使用邻域信息的非常强大的模型,这种特殊卷积在研究中得到了 广泛的应用。到目前为止,它已经在多个方面做了很多工作。最近的工作主要集 中在以下四个方面:使用图形方法的社区检测、恶意软件检测、视频或图片中的 对象或显着性检测,以及互联网安全。还有几个其他方面,例如计算机视觉和对 社交网络的研究。在本次研究中,我们主要将这一模型应用于文本的分类。
在本发明中,我们将简化图卷积网络和图注意力网络复合,在降低图卷积神 经网络的计算消耗的同时利用图注意力网络提高分类的准确率,并且我们还基于 图节点之间的相似性引入了一种新方法来构建图。然后,我们将该图导入网络中 来完成文本分类。
发明内容
现有的文本分类算法的主要问题的文本表示是高维度高稀疏的,特征表达能 力较弱,此外需要人工进行特征工程,成本较高。而深度学习最初在图像和语音 取得巨大成功,也相应的推动了深度学习在NLP上的发展,使得深度学习的模 型在文本分类上也取得了不错的效果。
为达到上述目的,本发明采用了下列技术方案:
一种基于图卷积神经网络的文本分类方法,包括:
步骤一:输入文本,相似性图的构建,在一个每个文本都有一个包含基本特 征的多维元组数据库中,基于多个文本的数据集,构造邻接矩阵,将每个文本定 义为一个节点,两个节点之间的边的存在性由这两个节点之间的相似性决定,如 果相似度大于一特定值,则在这些节点之间将生成一条边,以此对图中的节点进 行二进制分类;
步骤二:深度学习模型的构建,使用一种简化图卷积神经网络与一种图注意 力神经网络,并结合Softmax函数实现;
步骤三:由相似性图和深度学习模型构成文本分类方法总体模型,输出分类 后的文本,其中所述文本分类方法总体模型通过使用所述简化图卷积神经网络和 所述图注意力网络并结合Softmax函数实现。
步骤一中,两个节点之间的相似性计算方式为:
所述两个节点之间的相似性计算方式中:γ被定义为:
此外,对于定量度量,γ的定义为
定义dist(Av,Aw),如下所示:
所述简化图卷积神经网络计算方式定义为:
图注意力网络定义为:
其中αij定义为:
eij定义为:
所述文本分类方法总体模型为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911393728.4/2.html,转载请声明来源钻瓜专利网。