[发明专利]一种基于长短时记忆网络和卷积神经网络的文本分类方法在审

专利信息
申请号: 201911057476.8 申请日: 2019-11-01
公开(公告)号: CN110874410A 公开(公告)日: 2020-03-10
发明(设计)人: 王海涛;常春勤;曾艳阳;张霄宏 申请(专利权)人: 河南理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京东方盛凡知识产权代理事务所(普通合伙) 11562 代理人: 张雪
地址: 454003 河南*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 短时记忆 网络 卷积 神经网络 文本 分类 方法
【说明书】:

发明公开一种基于长短时记忆网络和卷积神经网络的文本分类方法,首先,利用词向量将输入文本进行向量表示,通过三层CNN提取文本的局部特征,进而整合出全文语义,同时,使用LSTM存储文本序列中历史信息的特征,以获取文本的上下文依赖关系,其次,将输入向量分别与各层CNN的输出相融合,缓解深层神经网络中层与层之间特征传递时出现的特征丢失问题。本发明适用于文本分类,具有运行效率高、运行时间短的优点,解决了传统分类技术在处理复杂抽象和上下文的强相关性文本时的缺陷。

技术领域

本发明涉及文本数据挖掘技术领域,特别是涉及一种基于长短时记忆网络和卷积神经网络的文本分类方法。

背景技术

文本分类是自然语言处理(NLP)领域重要的研究课题之一。它能够将复杂的文本信息有效的组织和管理,并且已经广泛应用于网页检索、垃圾邮件过滤、情感分析等不同领域,受到研究者广泛的关注。目前,常用的文本分类方法,支持向量机(Support VectorMachine,SVM)、朴素贝叶斯、决策树、K最近邻(K-Nearest Neighbor,KNN)等,这些方法的文本表示通常为高维度且稀疏的向量,其特征表达能力较弱,需要人工进行特征工程,在处理海量数据和语料库时会带来较高的代价。文本分类中的关键问题在于文本表示,在传统机器学习中通常以特征表示的形式出现,其最常用的特征表示方法是词袋模型,但这种方法不能涵盖词语间的关联关系,同时也忽略了词序。因此,借助于卷积神经网络等网络结构自动获取特征表达能力,去掉繁复的人工特征工程,解决传统技术方法的缺陷成为当前亟需解决的技术问题。

发明内容

本发明的目的是提供一种基于长短时记忆网络和卷积神经网络的文本分类方法,以解决上述现有技术存在的问题,提高文本分类的运行效率。

为实现上述目的,本发明提供了如下方案:本发明提供一种基于长短时记忆网络和卷积神经网络的文本分类方法,包括如下步骤:

文本表示:将文本中的每个单词都随机初始化为一个固定长度的向量,即将文本中的单词用词向量表示,所述词向量包含语义信息,便于实现上下文建模;所述初始化过程为:采用词向量将单词表示为实数词向量;

获取上下文关联语义:基于长短时记忆网络LSTM、改进的基于RNN的网络结构处理长序列的神经网络,通过增加存储单元、输入门、遗忘门和输出门来保存长序列的历史信息;

文本特征提取:通过CNN提取单词数据特征,对单词进行卷积运算得到更高级的特征,每个卷积核与输入特征的不同局部窗口进行卷积操作,将运算得到的特征向量经过非线性激活函数处理后得出产生本层要输出的特征;

原始特征重用:将经过词向量处理后的输入向量通过拼接Concat操作与每层CNN的输出向量进行融合;

获取分类结果:经过卷积和池化操作后输出的特征矩阵与LSTM输出的特征矩阵进行特征融合、重新拟合,降低特征向量的维度,再使用Dropout防止过拟合,最后计算类别的概率分布。

优选地,获取上下文关联语义的步骤中,所述存储单元用于存储当前时刻历史信息,所述输入门决定当前时刻输入向量对存储单元中信息的改变量,所述遗忘门决定上一时刻历史信息对当前存储单元中信息的影响程度,所述输出门用于控制当前存储单元中信息的输出量。

优选地,文本特征提取的步骤中,所述CNN提取单词数据特征的步骤中:输入层用于文本中词语对应的词向量自上而下的排列成矩阵;卷积层使用卷积核对文本数据进行特征提取和特征映射;激励层用于为线性的卷积运算增加非线性映射;池化层包括最大池化、平均池化,用于对特征图进行下采样和稀疏处理以减少数据运算量;全连接层用于将池化后的特征图重新拟合;输出层用于输出结果。

优选地,原始特征重用中Concat操作中:要求待合并向量的维度必须相同,此时,在CNN的卷积层加入Padding,使每层CNN的输入与输出向量的维度保持一致。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911057476.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top