[发明专利]一种文本分类方法及系统在审
申请号: | 202010492419.9 | 申请日: | 2020-06-03 |
公开(公告)号: | CN111651602A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 时翔;蔡丽君 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F17/15 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 系统 | ||
本发明公开了一种文本分类的方法及文本分类系统,其中主要内容包括:首先对分类数据进行预处理,然后由于计算机无法识别自然语言,计算机只能识别特定的数字符号,为了将自然语言转换为机器能处理的符号,采用训练词嵌入矩阵的方法进行文本表示,将自然语言字符转换为词向量,能够使语义相近的词保持较高的相似度,生成高质量的词组特征,并基于上述方式得到的词向量使用训练好的深度学习模型,对待分类文本进行分类处理,确定待分类文本的类别。
技术领域
本发明涉及自然语言处理领域,具体涉及根据文本语义特征和文本句间依赖关系,来对待分类文本进行分类。
背景技术
文本分类是根据文本特征进行分类规则的设定,来对文本进行自动分类。宏观上来说就是构建文本信息与分类类别的映射关系。针对文本分类其主要步骤分为文本信息预处理,文本表达,文本特征选择,分类器构建。其中最重要的就是文本特征选择和分类方法的构建。
分类算法主要分为三类:无监督,半监督,有监督的文本分类。无监督的文本分类的方法主要是通过文本聚类,种子词匹配等方式,对没有标注过的文本信息进行分类,这样的方式减少人工标注的工作量;半监督文本分类只利用少量的标注数据和大量无监督的数据进行分类模型的建立;有监督的方式需要大量的标注数据,但是精度远远高于前两者,信息时代的到来,这给有监督的分类方法提供了很好的数据基础。同时,随着计算机硬件与运算能力的不断提高,深度学习作为有监督机器学习的重要分支,在文本分类现在大放异彩。
深度学习能够通过构建不同的神经元,以不同形式的拓扑结构进行组合,达到提取数据深层特征的目的,这样的方式我们只需要对关注如何将更多的信息丢入到我们的网络结构中,不用花费更多的精力在抽取规则的建立,这是一种十分方便且快速的方法。目前深度学习的方法在新闻文本分类的主要的技术为卷积神经网络(CNN),循环神经网络(RNN)。卷积神经网络通过对卷积和池化的操作对输入的文本信息进行局部信息的提取,来构建高层语义特征然后进行分类;对于循环神经网络,擅长处理序列数据,通过上一个时刻的状态和这一时刻的输入来预测下一阶段的新的状态,这样能够文本长度不要求,同时能够将整个句子的信息进行获取,输出最后文本序列预测的结果,但是单纯这样的结构存在最明显的问题,由于句子长度的增加,这样会导致梯度消失或者梯度爆炸等问题,这对这样的现象,LSTM(Long short–Term Memory)是当前主要的循环神经网络的算法,他利用门控存储结构来解决梯度不稳定和长距离依赖问题。在前面的研究基础上,自注意力机制的提出,为CNN和RNN的结构增加更多的可解释性以及更高的精度。自注意力机制其主要思想就是构建的序列中每个元素都需要和整个序列的元素进行关系建模,他能够更好的捕捉序列中每个元素之间的关系,并且对于他们的距离不敏感。在这些方法的基础上衍生除了很多的改进基于LSTM的GRU,在注意力机制上实现了多重注意力机制等。这些都在文本分类上取得了很好的结果。
因此针对单个深度学习模型对文本特征提取的局限性,比如卷积神经网络不能考虑句间依赖关系,循环神经网络不能考虑文本语义特征,都将导致文本分类的精确率下降。
发明内容
本发明提出一种文本分类方法对文本特征向量进行高层次特征提取,通过Word2vec获得的词嵌入分两步走,一部分使用CNN模型进行多尺度卷积计算,来获取单词与单词之间的特征关系,抽取长距离的文本间依赖关系,获取文本的语义信息,另一部分使用LSTM网络进一步学习到短语间的长短依赖关系。将获取到的词嵌入丢入LSTM中,每个词作为一个时序状态,根据语序将整个文本进行排列,经过LSTM的特征利用attention机制进行更深层次的全局信息捕捉,然后利用全连接将获取到的特征进行展开,最后将两个部分的特征进行整合,作为模型分类器的输入,使用此模型能充分提取文本词间特征和句间特征。
根据本发明实施的一个方面,提供CNN模型进行特征提取,其流程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010492419.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝钪合金靶材的制备方法
- 下一篇:一种铌掺杂镍钴铝酸锂正极材料的制备方法