[发明专利]基于深度学习的文本分类方法在审
申请号: | 202011099764.2 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112163064A | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 刘云翔;徐齐;原鑫鑫;王春娅 | 申请(专利权)人: | 上海应用技术大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 文本 分类 方法 | ||
本发明提供了一种基于深度学习的文本分类方法,该方法首先对带标签的文本数据进行清洗、划分;然后将文本序列映射为词向量序列S;并将S输入到多注意力神经网络(MANN)中得到文本向量Sw。最后,将句子Sw输入到前馈神经网络(FNN)分类器得到文本类别。模型按照预设的超参数训练模型,根据模型在验证集上的表现选取最优的模型。实验结果显示,该模型取得了较好的分类精度。
技术领域
本发明涉及一种基于深度学习的文本分类方法。
背景技术
文本分类在信息处理中占据着重要的地位,随着互联网的发展海量的文本数据不断产生,这些文本数据中存在着大量的信息,利用有效的方法对这些信息进行有效的管理和提取对企业和社会信息技术发展有着重大作用。
目前,深度学习技术被广泛的应用在文本分类任务上。具体来说,Kim等人将CNN应用在文本分类任务上,利用卷积层获取局部的文本信息。但卷积网络无法很好的利用文本的序列信息。之后人们将RNN以及在RNN基础上改进的LSTM网络应用在文本分类任务上取得了更好的分类效果。但是,由于循环神经网络顺序处理词序列的特点,使得基于RNN的模型并行计算困难。
发明内容
本发明的目的在于提供一种基于深度学习的文本分类方法。
为解决上述问题,本发明提供一种基于深度学习的文本分类方法,包括:
步骤1:对带文本标签的文本数据进行清洗,然后将清洗后的带标签的文本数据划分为训练数据集和验证集;
步骤2:将训练数据集合和验证集的文本中的单词替换成单词编号,以分别形成训练数据集合对应的单词索引序列和验证集对应的单词索引序列;
步骤3:构建词向量矩阵;
步骤4:基于所述词向量矩阵,将分别将训练数据集和验证集对应的单词索引序列映射为训练数据集和验证集对应的词向量序列S;
步骤5:将训练数据集对应的词向量序列S输入多注意力神经网络模型,以获取输出的文本向量Sw;
步骤6:将所述文本向量Sw输入到前馈神经网络中,以获取输出的文本类别概率向量;
步骤7:基于所述文本数据的文本标签得到文本标签向量,根据所述文本类别概率向量和文本标签向量,计算损失函数,并使用批量梯度下降算法优化所述损失函数,基于优化后的损失函数对注意力神经网络和前馈神经网络的模型参数进行调整,以得到优化后的模型;
步骤8:将验证集对应的词向量序列S输入所述优化后的模型,基于所述优化后的模型的输出选取最优的模型作为最终的模型;
步骤9:基于所述最终的模型对待分类的文本进行分类。
进一步的,在上述方法中,对带文本标签的文本数据进行清洗,包括:
去除多余的符号,只保留标点符号、单词,并将文本标签用one-hot向量表示。
进一步的,在上述方法中,步骤2:将训练数据集合和验证集的文本中的单词替换成单词编号,包括:
按照训练数据集中单词出现的频率分别为训练数据集中的单词进行编号,将训练数据集的文本中的单词替换成单词编号,其中,对于训练数据集中的前num个频率最高的单词,单词编号为该单词出现的频率对应的编号;对于编号大于num的单词,单词编号为0,num为正整数;
按照验证集中单词出现的频率分别为验证集中的单词进行编号,将验证集的文本中的单词替换成单词编号,其中,对于验证集中的前num个频率最高的单词,单词编号为该单词出现的频率对应的编号;对于编号大于num的单词,单词编号为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011099764.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于高光谱成像的多生理参数检测装置及方法
- 下一篇:一种公路施工夯实设备