[发明专利]一种基于TextCNN改进的文本分类方法有效
申请号: | 201910174176.1 | 申请日: | 2019-03-08 |
公开(公告)号: | CN109918507B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 张涛;王露瑶;陈才;朱安琥 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于TextCNN改进的文本分类方法,本方法采用改进后的TextCNN,改进后的TextCNN包括输入层,循环的卷积层与半池化层,全局池化层,输出层。输入层:通过词向量word embeddings将自然语言中的字词转为计算机理解的稠密向量Dense Vector。假设定义词向量的维度是n,定义句子最大限度包含单词数量为m,构成一张m*n的二维矩阵。循环的卷积与半池化层:等长卷积层,残差连接,循环叠加卷积与半池化。全局池化层:将以3,4,5个单词为单位同时进行卷积池化后的向量横向相加,增加特征的维度。输出层:该层的输入为全局池化层,经过SoftMax层作为输出层,进行分类。对于多分类问题使用SoftMax层,对于二分类问题使用一个含有sigmoid激活函数的神经元作为输出层。 | ||
搜索关键词: | 一种 基于 textcnn 改进 文本 分类 方法 | ||
【主权项】:
1.一种基于TextCNN改进的文本分类方法,其特征在于:本方法采用改进后的TextCNN,改进后的TextCNN包括输入层,循环的卷积层,全局池化层,输出层;1)、输入层:通过词向量word embeddings将自然语言中的字词转为计算机理解的稠密向量Dense Vector;假设定义词向量的维度是n,定义句子最大限度包含单词数量为m,构成一张m*n的二维矩阵;2)、循环的卷积与半池化层:(1)等长卷积层:为了保持整个语句的长度不被改变,会使用等长卷积;假设卷积核的尺寸为L,那么就意味着那就是将输入语句的每个词位和其左右((L‑1)/2)个词的上下文信息压缩为该词位的embedding,也就是说,产生了每个词位的被上下文信息修饰过的更高级别更加准确的语义;(2)残差连接:将该层的输入层与等长卷积后的卷积层相加;由于在初始化深度CNN时,往往各层权重都是初始化为一个很小的值,这就导致最开始的网络中,后续几乎每层的输入都是接近0,这时网络的输出自然是没意义的,而这些小权重同时也阻碍了梯度的传播,使得网络的初始训练阶段往往要迭代多层才能启动;直接用一条线把上一层的输出层连接到每个循环单元的输入乃至最终的池化层/输出层;这时的残差连接由于连接到了各个循环的单元的输入,当然为了匹配输入维度,要事先经过对应次数的1/2池化操作;有了残差连接后,梯度就能够忽略卷积层权重的削弱,从残差连接一路无损的传递到各个循环的单元,直至网络前端,从而极大的缓解了梯度消失问题;(3)半池化层:在池化层每经过一个大小为3,步长为2的池化层,以下简称半池化层,序列的长度就被压缩成了原来的一半;这样,同样是size=3的卷积核,每经过一个1/2池化层后,能感知到的文本片段就比之前长了一倍;由于半池化层的存在,文本序列的长度会随着循环单元数量的增加呈指数级减少;(4)循环叠加卷积与半池化:通过增加网络的深度,获得单词与单词之间的特征关系,增加特征维度;随着网络深度的增加可以抽取长距离的文本依赖关系,从而提高文本分类的准确性;3)、全局池化层:将以3,4,5个单词为单位同时进行卷积池化后的向量横向相加,增加特征的维度;全连接层存在限制输入维度大小,参数过多的问题;全连接层需将所有特征图转成向量拼接后再全连接;4)、输出层:该层的输入为全局池化层,经过SoftMax层作为输出层,进行分类;对于多分类问题使用SoftMax层,对于二分类问题使用一个含有sigmoid激活函数的神经元作为输出层。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910174176.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于文本处理的网络安全事件可视化方法
- 下一篇:跨领域关键词提取方法