[发明专利]一种文本分类方法在审

申请号：	201810605919.1	申请日：	2018-06-13
公开（公告）号：	CN108829823A	公开（公告）日：	2018-11-16
发明（设计）人：	吕学强;董志安	申请（专利权）人：	北京信息科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类特征选择分类结果数据维度特征向量文本数据向量表示学术活动语言模型重点信息有效地分类准确率笔码改进转化优化应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种采用一种改进输入的Attention‑Based LSTM模型来进行高校学术活动的文本分类工作，采用字符级语言模型，对输入进行五笔码转化，随后进行文本数据向量表示，再输入Attention‑Based LSTM模型进行分类。本发明提供的文本分类方法，利用改进输入的Attention‑Based LSTM特征选择模型进行特征选择和分类，能够改善数据质量，降低数据维度，并有效地突出重点信息，优化特征向量，分类结果的准确率、召回率和F值都很高，可以很好地满足实际应用的需要。

技术领域

本发明属于文本分类技术领域，具体涉及一种高校学术活动的文本分类方法。

背景技术

伴随信息技术的发展和大数据时代的到来，各大高校对打造“智慧校园”的需求不断增长。高校在举办不同类型的学术活动之前会在官网上发布通知公告。准确高效地抽取出学术活动通知公告的相关内容，并将学术活动分类统计，能够有效地整理、组织、查阅学术活动相关信息。因此针对高校学术活动进行文本分类是十分重要的。

文本分类是自然语言处理中的基本任务之一。文本分类是指计算机将一篇文章归于预先给定的某一类或某几类的过程。机器学习自90年代被应用于文本分类以来，以其强大的适应能力获得了突出的效果。目前，用于文本分类的机器学习算法有很多，例如，朴素贝叶斯算法、K最近邻算法、支持向量机(Support Vector Machine，SVM)等。近年来深度学习在图像分类等领域取得了很大的进展，研究者们逐渐尝试在自然语言处理领域使用深度学习技术。最常见的是循环神经网络(Recurrent Neural Network，RNN)，循环神经网络能够使用上下文信息，在解决序列化的问题上有突出的效果，在自然语言处理领域应用广泛，然而RNN具有梯度爆炸和消失问题，而且在长序列的处理问题上表现不理想。通常的文本分类以新闻文本分类为主。新闻文本的数据获取较为容易。新闻文本在分类体系的选择上具有较大的随意性，分类类别并不固定。而高校学术活动文本的领域性较强，类别较为固定。与通常的文本分类不同，学术活动文本数据集的获取是非常困难的，因为研究者较少，互联网上也没有公开的数据集。总体来说，现有技术的文本分类方法尤其是高校学术活动的文本分类方法的分类结果的准确率、召回率和F值不高，不能很好地满足实际应用的需要。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的文本分类方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种文本分类方法，采用Attention-Based LSTM模型来进行文本分类。

进一步地，所述文本分类方法包括以下步骤：

步骤1)文本预处理；

步骤2)对预处理后的文本数据进行向量表示；

步骤3)将所述向量输入Attention-Based LSTM模型进行分类。

进一步地，所述步骤1)具体为：提取标题和正文信息，再依据内容是否固定进行不同的文本数据编码工作，采用字符级语言模型，对输入进行五笔码转化。

进一步地，所述步骤2)具体为：为每类数据分配一个维度进行向量表示，通过五笔字型码转换，每个中文字符平均转化为3个英文字符，为此类数据每类分配1000维进行向量表示，多于1000维的截断，少于1000维的在末尾补0。

进一步地，所述步骤2)中，文本数据向量为：

X＝{x₁，x₂，x₃，x₄，x₅，…，x_T}；