[发明专利]基于词语逆频率加权的图残差网络文本分类方法在审

专利信息
申请号: 202010262554.4 申请日: 2020-04-07
公开(公告)号: CN111339307A 公开(公告)日: 2020-06-26
发明(设计)人: 陈博琰;陆广泉;张师超;宋嘉港;李泽鑫;黄天城 申请(专利权)人: 广西师范大学
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04;G06N3/08
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 杨雪梅
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 词语 频率 加权 图残差 网络 文本 分类 方法
【说明书】:

发明公开了一种基于词语逆频率加权的图残差网络文本分类方法,包括如下步骤:1)整理文本数据;2)预处理;3)分集;4)构建文本关系图;5)搭建深度图残差卷积神经网络;6)迭代训练;7)分类结果。这种方法能够充分考虑文本信息,可提高文本分类精度,鲁棒性强。

技术领域

本发明涉及自然语音处理技术,具体是一种基于词语逆频率加权的图残差网络文本分类方法。

背景技术

随着互联网的不断发展,我们的日常交流生活也在不断发生变化,电子邮件,微博,微信等新型交流平台的出现,更是使网络数据呈现出爆发式的增长,其中包括了文本数据,图像数据,语音数据,视频数据等多种多样的数据形式。而在各种数据中,文本数据因其特性所占比例最大,数量最多,因此如何处理和利用海量文本数据则显得尤为重要。文本分类是目前自然语言处理领域的一项重要的技术,近年有很多文本分类方法出现:包括传统机器学习方法和深度学习方法如词袋模型,RNN文本分类和Text CNN等。CNN作为最常用的深度学习神经网络,Text CNN成功地将卷积神经网络引入文本分类方法,卷积神经网络通过视野域提取文本中较为重要的特征进行文本分类,实验结果表明相对传统机器学习方法,卷积神经网络用于文本分类能够得到较高的精确度,但它没有考虑到单词与单词之间组合造成的影响,所以我们提出了新的构建文本信息关系方法,同时考虑单词与单词,单词与文档的关系,而文本的长度也并不是稳定不变的,所以我们引入了对处理非结构化数据更为鲁棒的图卷积神经网络。

发明内容

本发明的目的是针对现有技术中存在的不足,提出了基于词语逆频率加权的图残差网络文本分类方法。这种方法能够充分考虑文本信息,可提高文本分类精度,鲁棒性强。

实现本发明目的的技术方案是:

基于词语逆频率加权的图残差网络文本分类方法,包括如下步骤:

1)整理文本数据:从github上收集文本数据作为训练集和测试集的数据,对训练集和测试集中的文本数据进行整理,即分别将训练集和测试集中文本数据的标签和特征按顺序排列,以便文本数据的信息被图卷积神经网络提取,其中文本数据的训练集和测试集在收集时已分类;

2)预处理:对整理后的训练集和测试集中的所有文本数据进行预处理,即删除文本数据中出现次数极低的单词、常用单词和标点符号,其中单词的最低出现次数人为设定; 3)分集:将步骤2)中预处理后的训练集中的文本数据打乱顺序,然后按9比1的比例分成训练样本集、验证样本集; 4)构建文本关系图:将步骤2)中预处理后的所有文本数据应用tf-iwf算法计算文本数据中词频和文档之间的关系,用PMI算法计算文本数据中词与词的关系,从而构建出文本数据中单词与文档的关系矩阵作为图卷积神经网络的文本关系图; 5)搭建深度图残差卷积神经网络:将步骤4)中的文本关系图传输到图卷积神经网络中,并将残差网络的原理引入图卷积神经网络,构建残差模块,通过在图卷积神经网络中叠加残差模块,得到深度图残差卷积神经网络; 6)迭代训练:对深度图残差卷积网络进行迭代训练,深度图残差卷积网络每遍历步骤3)中训练样本集中的文本数据一次,就计算一次深度图残差卷积网络的损失函数,然后计算损失函数对深度图残差卷积网络中各个参数的梯度,并更新各参数的梯度,同时人为设定一个“停止批次”,深度图残卷积网络每迭代训练一次,使用步骤3)验证样本集中的文本数据验证深度图残差卷积网络精度一次,如果连续数个批次深度图残差卷积网络对验证样本集的精度没有继续提升或者迭代次数到达“停止批次”,则停止训练,并且保存训练中获得的参数; 7)使用步骤2)中预处理后的测试集文本数据对步骤6)迭代训练后的深度图残差神经网络进行测试计算,并返回测试的结果数据,测试的结果数据即为对整个文本数据的最终的分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010262554.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top