[发明专利]基于注意力机制和干扰词删除的中文文本分类方法有效
申请号: | 201911045593.2 | 申请日: | 2019-10-30 |
公开(公告)号: | CN112749274B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 李芳芳;张盼曦;张健 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 马凤兰 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 干扰 删除 中文 文本 分类 方法 | ||
本发明提供一种基于注意力机制和干扰词删除的中文文本分类方法,包括步骤一对原始中文文本语料做预处理;步骤二将处理为词嵌入的语料输入双向LSTM层中提取文本特征得到文本表达;步骤三通过注意力机制提取重要词特征;步骤四将注意力机制标记出的重要词特征筛选排序;步骤五计算将预测结果切换到另一个类的异常干扰词,定位这种干扰词,做删除屏蔽的处理;步骤六用删除定量干扰词的方式调整训练分类器,并反向训练文本表达,得到训练参数;步骤七模型测试,将测试集词向量构成的词嵌入矩阵输入到训练好的模型中,得到概率矩阵后,输入分类器输出文本类别,最后与真实值比较得到预测值的精确度。本发明在提高中文文本分类的准确性的同时,评估删除屏蔽干扰词对分类的影响,增加了分类器的可解释性。
技术领域
本发明属于自然语言处理技术领域,涉及基于注意力机制和干扰词删除的中文文本分类方法。
背景技术
中文文本分类是将文本判别为事先确定的若干文本类别的一类或几类中的过程,是自然语言处理领域的一个重要问题。在各个中文文本分类任务中提高文本分类的精度,是当前的重要发展方向。
如今,随着互联网技术的快速发展,中文文本分类技术已广泛的应用于新闻主题分类(文章分类)、情感分析、舆情分析、邮件过滤等各种场景中。文本分类技术开始从传统的基于专家规则的分类,转变成为基于统计机器学习、基于深度学习等方法的分类,以达到自动抽取特征的效果。比较经典的算法包括支持向量机算法(SVM),朴素贝叶斯算法,K临近算法,神经网络算法等。
但这些算法往往是非常复杂,并且是不透明的。我们只知道分类算法的最终性能及精度,而不知道算法内部是如何分类的,从而无法对这些算法的分类进行合理的调整。我们面临的分类任务是复杂而具有不同任务背景的,只使用一个通用分类器很难捕捉到该特定任务的独立特征,无法根据任务的特殊性调整特征的提取。同时,不同于图像和语音,文本有天然的高维稀疏特性,且文本中隐含的有重要特征的文本元素在文本中的位置分布通常是不均匀的,这些都使文本分类的特征提取面临挑战。
对比文件1:CN201810467249“一种基于注意力机制和特征强化融合的中文文本分类方法”,该发明的主要流程为:原始中文语料预处理;特征选择,组成特征空间;预处理后语料存入嵌入层的嵌入矩阵中,每一行的表示形式为一篇文本文档的向量表示形式;将向量表示导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中;对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作;强化处理操作采用相加融合方式,对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理;将所述相加融合和所述CNN模块中输出的不同维度数据,进行拼接融合处理;经过全连接层后,数据导入softmax分类器进行归一化处理,以最大值对应的类别,作为文本类别识别的结果。
此发明是融合了卷积神经网络、双向长短期记忆网络、注意力机制来进行特征强化,虽然可以丰富特征提取,使特征提取更为细致。但此发明融合了三种不同的深层神经网络模型,使得模型变得非常复杂,使算法的复杂度大大提升,且三种深度网络模型都是用于提取特征,深度网络模型本身就被看作黑盒模型,三种融合使得算法更加缺乏可解释性,增加了调参的复杂度,模型融合变得不可控。
对比文件2:CN201810063815“基于Attention神经网络的多元特征融合中文文本分类方法”,该发明的主要流程为:对中文文本语料进行预处理;构建Attention算法神经网络模型;构建多元特征融合神经网络模型,所述多元特征融合的神经网络由三条CNN通路,一条LSTM通路和一条Attention算法通路并联组成;模型训练,将训练集的词向量构成的嵌入层输入到多元特征融合的神经网络,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,进行训练并得到训练参数;模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911045593.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于输送管道的输电方法和系统
- 下一篇:一种用于管道输电的输送管道