[发明专利]基于图网络的标题和正文结合的文本分类方法有效
申请号: | 202011233244.6 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112347255B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 谢宗霞;袁春宇 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李丽萍 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 标题 正文 结合 文本 分类 方法 | ||
本发明公开了一种基于图网络的标题和正文结合的文本分类方法,主要包括:将每篇文档划分为标题文档和正文文档,分别进行数据预处理,获取标题词集合和正文词集合,利用词向量模型获取词向量表示,利用LDA模型获取主题向量,利用HAN模型来获取正文文档特征表示,通过标题、标题词集合、主题三类节点构建异质图,并输入到GAT模型,实现标题和正文特征融合,获得每篇文档特征表示,通过Softmax函数进行文本类别预测。本发明分类方法不仅利用额外信息来增强标题语义稀疏性,而且更好地融合标题和正文特征,体现了标题在文本分类任务中的重要性,提高分类精度,解决了现在新闻文本分类忽视标题重要性,导致分类效率低的问题。
技术领域
本发明涉及一种基于图网络的标题和正文结合的文本分类方法,属于自然语言处理领域。
背景技术
文本分类是自然语言处理的一个基本问题。现如今,统计学习方法已经成为了文本分类领域的主流。基于传统机器学习的文本分类方法主要是是对文本进行预处理、特征提取,然后将处理后的文本向量化,最后通过常见的机器学习分类算法来对训练数据集进行建模,主要包括朴素贝叶斯模型,k最近邻算法,期望最大化算法,支持向量机器(SVM)模型。然而,特征工程的难度被认为是对传统文本分类的挑战。
如今,深度学习方法和人工智能的不断发展,在文本分类领域中取得了许多可喜的成果。不同于传统的中文文本分类学习方法,深度学习方法采用神经网络模型对单词嵌入进行训练。例如,卷积神经网络(CNN),周期性神经网络(RNN),以及长短期记忆网络(LSTM)。这些深度学习模型能够很好的自动学习文本特征,提高分类效率,受到广大研究人员欢迎。
近年来,一个新的研究方向图神经网络引起广泛关注,图神经网络针对具有丰富关系结构的任务很有效,并且能够在图嵌入中保存图的全局结构信息。本发明利用图网络解决文本分类中忽视了标题在文本分类的重要性的问题,提高文本分类效率。
发明内容
本发明提供一种基于图网络的标题和正文结合的文本分类方法,利用图网络来融合标题和正文特征,解决在目前文本分类任务中忽视标题在文本分类的重要性,导致文本分类精度低的问题。
本发明提出的一种基于图网络的标题和正文结合的文本分类方法,包括以下步骤:
1)收集中文新闻文本数据集,所述的数据集包含文档和所属类别;并建立停用词表,
2)对所述的数据集进行处理,将其中的文档均划分为标题文档和正文文档;
3)将步骤2)划分出的正文文档进行数据预处理,包括分句、分词、去停用词,并构建正文词集合;
4)利用词向量训练模型对步骤3)构建的正文词集合进行训练,得到正文词集合中每一个词的分布式表示;
5)将步骤2)划分出的正文文档划分为训练集、验证集和测试集;
6)将步骤5)划分出的训练集输入HAN(Hierarchical Attention Networks)模型进行训练,然后利用步骤5)划分出的测试集检测该HAN模型,并优化该HAN模型,获取每个正文文档向量;
7)将步骤2)划分出的标题文档,进行分词,构建标题词集合,并利用词向量训练模型对标题词集合进行训练,得到标题词集合中每个词的分布式表示;
8)利用LDA主题模型对所述的数据集中文档进行训练,得出N个主题和每个主题的主题词分布,并根据主题词分布得出每个主题向量;
9)以步骤2)划分出的标题文档、步骤7)中构建的标题词集合和步骤8)获取的主题为节点,根据节点之间的关系构建异质图;
10)将步骤2)划分出来的标题文档划分为训练集、验证集、测试集;
11)用步骤6)获得的每个正文文档向量来表示步骤10)所述的训练集中每个标题文档向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011233244.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种点云-多视图融合的三维模型识别方法
- 下一篇:一种图像分类方法和装置