[发明专利]一种基于TextCNN改进的文本分类方法有效
申请号: | 201910174176.1 | 申请日: | 2019-03-08 |
公开(公告)号: | CN109918507B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 张涛;王露瑶;陈才;朱安琥 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 textcnn 改进 文本 分类 方法 | ||
本发明公开了一种基于TextCNN改进的文本分类方法,本方法采用改进后的TextCNN,改进后的TextCNN包括输入层,循环的卷积层与半池化层,全局池化层,输出层。输入层:通过词向量word embeddings将自然语言中的字词转为计算机理解的稠密向量Dense Vector。假设定义词向量的维度是n,定义句子最大限度包含单词数量为m,构成一张m*n的二维矩阵。循环的卷积与半池化层:等长卷积层,残差连接,循环叠加卷积与半池化。全局池化层:将以3,4,5个单词为单位同时进行卷积池化后的向量横向相加,增加特征的维度。输出层:该层的输入为全局池化层,经过SoftMax层作为输出层,进行分类。对于多分类问题使用SoftMax层,对于二分类问题使用一个含有sigmoid激活函数的神经元作为输出层。
技术领域
本发明属于自然语言处理中文本分类领域,是对TextCNN(Convolutional NeuralNetworks for Sentence Classification)文本分类方法基于卷积层深度的改进。
背景技术
CNN模型最开始被广泛应用于图像处理任务上,CNN模型后来经过研究发现在自然语言处理领域也行之有效,并在机器翻译,文本分类,搜索查询领域取得了不错的效果。卷积神经网络首次应用于文本分类可以说是在2004年Kim在“Convolutional NeuralNetworks for Sentence Classification”一文中提出的,主要包括输入层,卷积层,池化层,全连接层。
1.输入层。输入层需要输入一个定长的文本序列L,也就是语句最长包含单词数为L,长度小于L的语句序列需要填充(一般用零填充),长于L的需要截取。在深度学习中一般使用Embedding来处理词向量。Embedding层在上文获得的词编码的基础上,对单词进行one-hot编码,每个词都会以一个固定维度的向量M保存;然后通过神经网络的训练迭代更新得到一个合适的权重矩阵,最终整个语句序列将转换成一个L*M的固定大小的矩阵形式。
2.卷积层。针对图像任务,CNN卷积核的宽度与高度在处理图像数据时,CNN使用的卷积核的宽度和高度的一样的,但是在TextCNN中,卷积核的宽度是与词向量的维度一致。这是因为输入的每一行向量代表一个词,在抽取特征的过程中,词作为文本的最小粒度,如果使用卷积核的宽度小于词向量的维度就已经不是以词作为最小粒度了。而高度和CNN一样,可以自行设置(通常取值2,3,4,5)。由于输入是一个句子,句子中相邻的词之间关联性很高,因此,当用卷积核进行卷积时,不仅考虑了词义而且考虑了词序及其上下文。(类似于skip-gram和CBOW模型的思想)。
3.池化层。因为在卷积层过程中使用了不同高度的卷积核,使得通过卷积层后得到的向量维度会不一致,所以在池化层中,使用1-Max-pooling对每个特征向量池化成一个值,即抽取每个特征向量的最大值表示该特征,而且认为这个最大值表示的是最重要的特征。当对所有特征向量进行1-Max-Pooling之后,还需要将每个值给拼接起来。得到池化层最终的特征向量。在池化层到全连接层之前可以加上dropout防止过拟合。
4.全连接层。全连接层跟其他模型一样,假设有两层全连接层,第一层可以加上’relu’作为激活函数,第二层则使用softmax激活函数得到属于每个类的概率。如果处理的数据集为二分类问题,如情感分析的正负面时,第二层也可以使用sigmoid作为激活函数,然后损失函数使用对数损失函数’binary_crossentropy’。
5.输出层。该层的输入为全连接层的输出,经过SoftMax层作为输出层,进行分类。对于多分类问题可以使用SoftMax层,对于二分类问题可以使用一个含有sigmoid激活函数的神经元作为输出层。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910174176.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于文本处理的网络安全事件可视化方法
- 下一篇:跨领域关键词提取方法