[发明专利]基于图网络的标题和正文结合的文本分类方法有效
申请号: | 202011233244.6 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112347255B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 谢宗霞;袁春宇 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李丽萍 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 标题 正文 结合 文本 分类 方法 | ||
1.一种基于图网络的标题和正文结合的文本分类方法,其特征在于,包括以下步骤:
步骤1)收集中文新闻文本数据集,所述的数据集包含文档和所属类别;并建立停用词表,
步骤2)对所述的数据集进行处理,将其中的文档均划分为标题文档和正文文档;
步骤3)将步骤2)划分出的正文文档进行数据预处理,包括分句、分词、去停用词,并构建正文词集合;
步骤4)利用词向量训练模型对步骤3)构建的正文词集合进行训练,得到正文词集合中每一个词的分布式表示;
步骤5)将步骤2)划分出的正文文档划分为训练集、验证集和测试集;
步骤6)将步骤5)划分出的训练集输入HAN(Hierarchical Attention Networks)模型进行训练,然后利用步骤5)划分出的测试集检测该HAN模型,并优化该HAN模型,获取每个正文文档向量;
步骤7)将步骤2)划分出的标题文档,进行分词,构建标题词集合,并利用词向量训练模型对标题词集合进行训练,得到标题词集合中每个词的分布式表示;
步骤8)利用LDA主题模型对所述的数据集中文档进行训练,得出N个主题和每个主题的主题词分布,并根据主题词分布得出每个主题向量;
步骤9)以步骤2)划分出的标题文档、步骤7)中构建的标题词集合和步骤8)获取的主题为节点,根据节点之间的关系构建异质图;
步骤10)将步骤2)划分出来的标题文档划分为训练集、验证集、测试集;
步骤11)用步骤6)获得的每个正文文档向量来表示步骤10)所述的训练集中每个标题文档向量;
步骤12)利用步骤9)构建的异质图、步骤11)所述的标题文档向量、步骤7)的词向量和步骤8)的主题向量训练GAT(Graph Attention Networks)模型,并利用步骤10)划分出的测试集检测该GAT模型,实现标题和正文特征融合,得到整篇文档特征表示,并将文档特征表示输入到softmax函数,该softmax函数的输出即为文档类别。
2.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤1)中,所述停用词表中包括标点符号,数学符号,连接词,感叹词,语气词。
3.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤3)的具体步骤如下:
3-1)将每个正文文档以500字进行截取;
3-2)以每句20字对正文文档进行分句,分句后的顺序与正文文本中的顺序一致;
3-3)对每一分句利用jieba分词工具进行分词,并依据停用词表去除其中的停用词;
3-4)建立正文词集合。
4.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤4)中,利用Word2vec中skip-gram模型对正文词集合进行训练,设定维度为300维。
5.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤5)中将正文文档划分为训练集、验证集和测试集和步骤10)将标题文档划分为训练集、验证集、测试集,其中,训练集、验证集和测试集的划分比例均为8:1:1。
6.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤7)中,利用jieba分词工具进行分词,所述词向量模型为Word2vec中skip-gram模型。
7.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤8)中,N的数值根据LDA主题模型的困惑度设定。
8.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤9)中,三类节点之间的关系如式(1)所示:
9.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤12)中,每篇文档特征表示使用如式(2)所示的softmax函数输出文档类别,
Z=softmax(H(L)) (2)
其中Z为文档类别,H(L)为文档特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011233244.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种点云-多视图融合的三维模型识别方法
- 下一篇:一种图像分类方法和装置