[发明专利]基于超深卷积神经网络结构模型的中文文本分类方法在审
申请号: | 201710573388.8 | 申请日: | 2017-07-14 |
公开(公告)号: | CN107301246A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 彭玉青;宋初柏;闫倩;赵晓松;魏铭 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙)12210 | 代理人: | 付长杰,张国荣 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明基于超深卷积神经网络结构模型的中文文本分类方法,该方法包括以下步骤从网上搜集词向量的训练语料,并结合中文分词算法对训练语料进行分词处理,得出词向量模型;从网上搜集多个中文新闻站点的新闻,标记新闻的类别,作为文本分类的语料集,分为训练集语料和测试集语料;将训练集语料和测试集语料分别进行分词处理,然后利用词向量模型得出训练集语料和测试集语料分别对应的词向量;建立超深卷积神经网络结构模型;将训练集语料所对应的词向量输入到超深卷积神经网络结构模型中,训练得出文本分类模型;将需要分类的中文文本输入到词向量模型中,得到该需要分类的中文文本的词向量,然后输入到文本分类模型中完成中文文本分类。 | ||
搜索关键词: | 基于 卷积 神经网络 结构 模型 中文 文本 分类 方法 | ||
【主权项】:
一种基于超深卷积神经网络结构模型的中文文本分类方法,该方法包括以下步骤:步骤1:从网上搜集词向量的训练语料,并结合中文分词算法对训练语料进行分词处理,同时去除停用词,建立词典D,然后利用Word2Vec工具训练词典D中的词,得出词向量模型,同时获得词向量;步骤2:从网上搜集多个中文新闻站点的新闻,标记新闻的类别,作为文本分类的语料集,并将文本分类的语料集中的文本分类语料分为训练集语料和测试集语料;步骤3:将步骤2中的训练集语料和测试集语料分别进行分词处理,然后利用步骤1得到的词向量模型得出训练集语料和测试集语料分别对应的词向量;步骤4:建立超深卷积神经网络结构模型,第一层为词嵌入层,在词嵌入层之后连接五个卷积块,每个卷积块内部由卷积层连接而成,卷积块内部每进行一次卷积之后进行一次批规范化操作,每个卷积层中卷积核的数量均为3;设置每个卷积块之间进行池化操作,同时在每个卷积块之间设置一个捷径连接,在最后一个卷积块之后进行最大值池化,之后连接三个全连接层,设置卷积层和全连接层的激活函数均为ReLU,再通过Softmax进行分类,得到超深卷积神经网络结构模型,所述超深卷积神经网络结构模型的深度为词嵌入层的个数、全连接层的个数和卷积层的个数三者之和;步骤5:将步骤3中得到的训练集语料所对应的词向量输入到步骤4中建立的超深卷积神经网络结构模型中,训练得出文本分类模型;将步骤3中测试集语料所对应的词向量输入到文本分类模型中,输出测试集语料所对应的分类结果,计算文本分类模型的准确率为90%以上即可用于中文文本分类;步骤6:将需要分类的中文文本输入到步骤1的词向量模型中,得到该需要分类的中文文本的词向量,然后将该词向量输入到步骤5的文本分类模型中,即完成中文文本分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710573388.8/,转载请声明来源钻瓜专利网。