[发明专利]一种文本分类方法及系统在审

申请号：	201910044602.X	申请日：	2019-01-17
公开（公告）号：	CN109829054A	公开（公告）日：	2019-05-31
发明（设计）人：	杨振宇;庞雪	申请（专利权）人：	齐鲁工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06N3/08
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	张庆骞
地址：	250353 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类预处理特征表示文本布尔逻辑分类结果输出文本特征学习特征词构建两层学习分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种文本分类方法及系统。其中，一种文本分类方法包括对文本进行预处理，只提取动词和名词作为初始特征词；将预处理后的文本采用布尔逻辑模型进行特征表示；将特征表示输入至由两层Mom‑Ada‑DAE构建的深度学习模型中进行特征学习；利用所述深度学习模型的分类层输出文本分类结果。

技术领域

本公开属于文本分类领域，涉及一种文本分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在互联网时代，每个人的生活都和互联网密不可分，因此产生了大量的文本信息，需要用计算机自动提取文本中的有效信息。文本分类是处理和组织大量文本数据的关键性技术，可以有效的管理和利用文本信息。

发明人发现，现有的文本分类模型需要大量的数据进行训练、训练时间长且分类结果准确率及稳定性差。

发明内容

根据本公开的一个或多个实施例的一个方面，提供一种文本分类方法，其能满足文本的分类要求，有利于文本分类，实用性强，易于推广。

本公开的一种文本分类方法，包括：

对文本进行预处理，提取动词和名词作为文本特征；

采用布尔逻辑模型对提取的文本特征进行特征表示；

将特征表示输入至深度学习模型中进行特征学习；所述深度学习模型由两层附加动量及自适应学习率的降噪自动编码器构建而成；

利用深度学习模型的分类层输出文本分类结果。

在一个或多个实施例中，每层附加动量及自适应学习率的降噪自动编码器由编码器和解码器组成，所述编码器用于对输入的特征表示进行降维处理并编码；所述解码器用于对编码结果进行映射重构；在训练深度学习模型的权值和偏置参数时，附加动量项使得权值的调整朝着误差曲面底部的平均方向变化，且每个权值和偏置参数对应一个自适应学习率。

在一个或多个实施例中，自适应调学习率的调整策略为：下一次迭代的学习率是当前迭代的学习率与学习率变化系数和总体平均误差比值三者的乘积；其中，总体平均误差比值为前一次迭代的总体平均误差与当前迭代的总体平均误差的比值；学习率变化系数的倒数等于所有迭代次数的损失函数梯度平方和与预设常系数累加后的平方根。

在一个或多个实施例中，将特征表示输入至深度学习模型中进行特征学习的过程为：

第一层附加动量及自适应学习率的降噪自动编码器将原始特征表示映射到一个预设高维空间；

第二层附加动量及自适应学习率的降噪自动编码器对第一层的输出进行压缩和进一步特征提取，且第一层训练结束后的输出作为第二层训练的输入。

在一个或多个实施例中，深度学习模型的分类层为深度学习模型的最后一层，且为Softmax分类器。

根据本公开的一个或多个实施例的另一个方面，提供一种文本分类系统，其能满足文本的分类要求，有利于文本分类，实用性强，易于推广。

本公开的一种文本分类系统，包括存储器和分类处理器，所述分类处理器包括：

预处理模块，其用于对文本进行预处理，提取动词和名词作为文本特征；

特征表示模块，其用于采用布尔逻辑模型对提取的文本特征进行特征表示；

特征学习模块，其用于将特征表示输入至深度学习模型中进行特征学习；所述深度学习模型由两层附加动量及自适应学习率的降噪自动编码器构建而成；

分类结果输出模块，其用于利用深度学习模型的分类层输出文本分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。