[发明专利]基于超深卷积神经网络结构模型的中文文本分类方法在审
申请号: | 201710573388.8 | 申请日: | 2017-07-14 |
公开(公告)号: | CN107301246A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 彭玉青;宋初柏;闫倩;赵晓松;魏铭 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙)12210 | 代理人: | 付长杰,张国荣 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 结构 模型 中文 文本 分类 方法 | ||
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于超深卷积神经网络结构模型的中文文本分类方法。
背景技术
随着移动互联网、社交和新媒体等网络平台爆发式的增长,网络中充斥了大量缺乏有效信息组织但具有研究价值的文本,而文本分类作为自然语言处理的关键技术之一,能够有效解决信息杂乱等问题,并广泛应用于搜索引擎、垃圾邮件过滤、个性化新闻和资料分拣等任务中。因此,文本分类在自然语言处理、数据的智能化组织与管理等领域发挥着重要的作用。
传统的文本分类主要依靠知识工程分类法,首先需要对文本进行复杂预处理之后手动抽取文本特征,比如“词袋”(bag-of-words)、n-grams以及TF-IDF等,然后再利用特征训练分类器。卷积神经网络(CNN)最初被应用于图像处理和语音识别领域,目前也有越来越多的人将神经网络技术应用到自然语言处理领域中。
余本功等(余本功,张连彬.基于CP-CNN的中文短文本分类研究.计算机应用研究)提出了一种结合词和字符的双输入卷积神经网络模型CP-CNN,有效提高了短文本分类的效果。Yang Z等(Yang Z,Yang D,Dyer C,et al.Hierarchical attention networks for document classification[C]Proceedings of NAACL-HLT.2016:1480-1489.)将注意力机制引入到网络结构进行文本分类,提高了分类的准确率。夏从零等(夏从零,钱涛,&姬东鸿.(2017).基于事件卷积特征的新闻文本分类.计算机应用研究,34(4),991-994.)提出了一种基于事件卷积特征的文本分类方法。但由于自然语言本身结构的特殊性,自然语言中有着上下文依赖的非连续关系,上述所研究的卷积神经网络模型均存在着卷积核大小难以确定、文本的向量维度过高等问题,并且这些模型与目前应用于图像处理和语言识别领域优秀的网络相比结构仍然较浅,卷积神经网络(CNN)是多个网络层叠加组成的,较浅是指用于文本分类的CNN层数与图像处理和语音识别领域的CNN层数相比,文本分类的CNN层数少,分类的效果和准确率也低于图像处理和语音识别领域。He K等人(He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.)研究表明,对现有的传统卷积神经网络模型(CNN)单纯增加网络层都会导致梯度消失和准确率下降,并不能提高文本分类的效果。
在自然语言处理中一般将每一个词作为基本单元进行向量表示。目前,词的表示主要分为独热表示(one-hot)和分布式表示(distributed representation)。独热表示是自然语言处理中最直观和最常用的词表示法,该方法把每个词表示为只有一个维度的值为1其余值为0的长向量。其中,维度表示词汇表的大小,值为1的维度表示当前词。但是利用独热表示词导致任意词之间都是无联系的,这对于卷积神经网络进行文本分类是致命的。同时,海量文本使用独热表示也会导致向量维度灾难。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于超深卷积神经网络结构(简称VDCNN)模型的中文文本分类方法,该方法解决了在中文文本分类中向量维度过高以及传统卷积神经网络存在的卷积核大小难以确定和梯度消失,准确率不足等问题。
本发明解决所述技术问题采用的技术方案是,提供一种基于超深卷积神经网络结构模型的中文文本分类方法,该方法包括以下步骤:
步骤1:从网上搜集词向量的训练语料,并结合中文分词算法对训练语料进行分词处理,同时去除停用词,建立词典D,然后利用Word2Vec工具训练词典D中的词,得出词向量模型,同时获得词向量;
步骤2:从网上搜集多个中文新闻站点的新闻,标记新闻的类别,作为文本分类的语料集,并将文本分类的语料集中的文本分类语料分为训练集语料和测试集语料;
步骤3:将步骤2中的训练集语料和测试集语料分别进行分词处理,然后利用步骤1得到的词向量模型得出训练集语料和测试集语料分别对应的词向量;
步骤4:建立超深卷积神经网络结构模型,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710573388.8/2.html,转载请声明来源钻瓜专利网。