[发明专利]一种文本分类方法及装置在审

申请号：	201910151793.X	申请日：	2019-02-28
公开（公告）号：	CN109657064A	公开（公告）日：	2019-04-19
发明（设计）人：	邓楚然;张小陆;万婵;彭泽武;杨秋勇;苏华权;魏理豪	申请（专利权）人：	广东电网有限责任公司;广东电网有限责任公司信息中心
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	张春水;唐京桥
地址：	510600 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词频文档矩阵分词训练样本回归模型特征变量文本分类词语矩阵参数拟合集合更新输出特征输出预测应用训练主观因素特征词推广性构建剔除集合概率预测创建监督
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本分类方法，包括：获取训练样本；对所述训练样本进行分词，得到分词列表；根据所述分词列表确定词频文档矩阵，并计算分词列表中各词语的TF‑IDF值矩阵；将所述词语作为变量输入模型，根据CV图获取最佳λ值和最优变量个数范围；将所述最优λ值作为参数拟合lasso回归模型，并输出特征变量；以特征词的词频文档矩阵创建训练容器；构建所述训练样本的SLDA有监督模型；通过Lasso回归模型得到的特征变量集合，并根据所述特征变量集合更新所述词频文档矩阵；在所述词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。本发明成本低且效率高，可推广性强，可以剔除人的主观因素对结果的影响。

技术领域

本发明涉及互文字处理领域，尤其涉及一种文本分类方法及装置。

背景技术

当今世界普遍存在的短文本，它们具有长度较短、内容较少、语义特征稀疏的特点。传统的K近邻(KNN)、朴素贝叶斯、支持向量机(SVM)和决策树等算法不适用于语义特征稀疏、词语共现性低、用词不规范、存在干扰的短文本分类场景上。

目前主流的短文本分类方法有三种：一种是基于搜索引擎，将短文本作为查询利用搜索引擎返回结果进行文本扩充，再利用传统方法进行文本分类；一种是利用外部大规模语料库进行文本扩充和文本分类；另一种是基于LDA模型得到的主题进行特征加权用于文本分类。三者各有其优缺点，其中LDA模型是无监督模型，不能利用已有的短文本类标注信息，为了克服这个困难，人们提出了SLDA模型，一个伴随有类标注信息的监督LDA模型。

有监督的LDA主题模型仍然需要对文本进行大量的清洗。特别是对于短文本来说，语言稀疏，特征较少，本身就包含冗余的噪声数据，这必然会对模型性能造成影响。另一方面，用某些特征作为文本的特征，通常是文中的词。但是不是所有词都能很好的代表文本的特性，把所有词都用上理论上能反应最多的信息量，但是会导致非常高的维度，带来的是计算量的攀升和噪音的干扰。

发明内容

本发明提供了一种文本分类方法，成本低且效率高，可推广性强，可以剔除人的主观因素对结果的影响。

本发明的第一方面提供了一种文本分类方法，包括：

获取训练样本；

对所述训练样本进行分词，得到分词列表；

根据所述分词列表确定词频文档矩阵，并计算分词列表中各词语的TF-IDF值矩阵；

将所述词语作为变量输入模型，根据CV图获取最佳λ值和最优变量个数范围；

将所述最优λ值作为参数拟合lasso回归模型，并输出特征变量；

以特征词的词频文档矩阵创建训练容器；

构建所述训练样本的SLDA有监督模型；

通过Lasso回归模型得到的特征变量集合，并根据所述特征变量集合更新所述词频文档矩阵；

在所述词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。