[发明专利]基于图网络的标题和正文结合的文本分类方法有效

专利信息
申请号: 202011233244.6 申请日: 2020-11-06
公开(公告)号: CN112347255B 公开(公告)日: 2021-11-23
发明(设计)人: 谢宗霞;袁春宇 申请(专利权)人: 天津大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李丽萍
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 网络 标题 正文 结合 文本 分类 方法
【权利要求书】:

1.一种基于图网络的标题和正文结合的文本分类方法,其特征在于,包括以下步骤:

步骤1)收集中文新闻文本数据集,所述的数据集包含文档和所属类别;并建立停用词表,

步骤2)对所述的数据集进行处理,将其中的文档均划分为标题文档和正文文档;

步骤3)将步骤2)划分出的正文文档进行数据预处理,包括分句、分词、去停用词,并构建正文词集合;

步骤4)利用词向量训练模型对步骤3)构建的正文词集合进行训练,得到正文词集合中每一个词的分布式表示;

步骤5)将步骤2)划分出的正文文档划分为训练集、验证集和测试集;

步骤6)将步骤5)划分出的训练集输入HAN(Hierarchical Attention Networks)模型进行训练,然后利用步骤5)划分出的测试集检测该HAN模型,并优化该HAN模型,获取每个正文文档向量;

步骤7)将步骤2)划分出的标题文档,进行分词,构建标题词集合,并利用词向量训练模型对标题词集合进行训练,得到标题词集合中每个词的分布式表示;

步骤8)利用LDA主题模型对所述的数据集中文档进行训练,得出N个主题和每个主题的主题词分布,并根据主题词分布得出每个主题向量;

步骤9)以步骤2)划分出的标题文档、步骤7)中构建的标题词集合和步骤8)获取的主题为节点,根据节点之间的关系构建异质图;

步骤10)将步骤2)划分出来的标题文档划分为训练集、验证集、测试集;

步骤11)用步骤6)获得的每个正文文档向量来表示步骤10)所述的训练集中每个标题文档向量;

步骤12)利用步骤9)构建的异质图、步骤11)所述的标题文档向量、步骤7)的词向量和步骤8)的主题向量训练GAT(Graph Attention Networks)模型,并利用步骤10)划分出的测试集检测该GAT模型,实现标题和正文特征融合,得到整篇文档特征表示,并将文档特征表示输入到softmax函数,该softmax函数的输出即为文档类别。

2.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤1)中,所述停用词表中包括标点符号,数学符号,连接词,感叹词,语气词。

3.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤3)的具体步骤如下:

3-1)将每个正文文档以500字进行截取;

3-2)以每句20字对正文文档进行分句,分句后的顺序与正文文本中的顺序一致;

3-3)对每一分句利用jieba分词工具进行分词,并依据停用词表去除其中的停用词;

3-4)建立正文词集合。

4.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤4)中,利用Word2vec中skip-gram模型对正文词集合进行训练,设定维度为300维。

5.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤5)中将正文文档划分为训练集、验证集和测试集和步骤10)将标题文档划分为训练集、验证集、测试集,其中,训练集、验证集和测试集的划分比例均为8:1:1。

6.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤7)中,利用jieba分词工具进行分词,所述词向量模型为Word2vec中skip-gram模型。

7.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤8)中,N的数值根据LDA主题模型的困惑度设定。

8.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤9)中,三类节点之间的关系如式(1)所示:

9.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤12)中,每篇文档特征表示使用如式(2)所示的softmax函数输出文档类别,

Z=softmax(H(L)) (2)

其中Z为文档类别,H(L)为文档特征表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011233244.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top