[发明专利]文本分类方法及装置在审

申请号：	201811149185.7	申请日：	2018-09-29
公开（公告）号：	CN109408636A	公开（公告）日：	2019-03-01
发明（设计）人：	郑东东;蒋茂勇	申请（专利权）人：	新华三大数据技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京林达刘知识产权代理事务所(普通合伙) 11277	代理人：	刘新宇
地址：	450000 河南省郑州市高新技***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特征向量矩阵约简文本分类专家知识文本特征词维度分类模型时间消耗样本数据语义鸿沟分类算法预设引入
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种文本分类方法及装置，包括：获取待处理文本的特征向量矩阵；根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵；根据预设分类模型及所述约简特征向量矩阵对所述待处理文本进行分类。本公开通过引入了专家知识对文本进行分类，在一定程度上克服了语义鸿沟，实现了特征向量矩阵的维度的约简，节省了算法运行的空间和时间消耗，有效提高文本分类的精度，并节省了样本数据标记的成本。

技术领域

本公开涉及文本分类技术领域，尤其涉及一种文本分类方法及装置。

背景技术

据预测，非结构化数据占据所有数据的70-80％以上。例如，广泛存在于互联网和企业内部的文本数据是一种典型的非结构化数据，以其灵活的表示形式，蕴含了丰富的信息。结合数据分析技术，挖掘文本价值，对于企业运营具有重要意义。以文本分类为代表的文本挖掘技术在情感分类、产品缺陷分析、法律文书分析等许多领域都有广泛的应用价值。

然而，大量的文本数据通常混合在一起，无法区分文本数据的类别，这对文本数据的利用造成阻碍。

因此，急需提出一种文本分类的方法，能够将文本数据快速、准确分类。

发明内容

有鉴于此，本公开提出了一种文本分类方法及装置，以实现文本快速、准确分类。

根据本公开的一个方面，提出了一种文本分类方法，所述方法包括：

获取待处理文本的特征向量矩阵，其中，所述特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为从所述待处理文本提取的特征词，所述特征值为所述特征词对应的参数值；

根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵，其中，所述专家知识包括多个类别，每个类别中包括多个关键特征词，其中，所述约简特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为所述类别，所述特征值为所述类别对应的参数值；

根据预设分类模型及所述约简特征向量矩阵对所述待处理文本进行分类。

在一种可能的实施方式中，所述特征词的参数值为所述特征词的词频、逆文本频率、TF-IDF、信息增益、互信息的其中之一。

在一种可能的实施方式中，根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵，包括：

将所述特征向量矩阵中的所述特征词与类别中的关键特征词进行对比，确定所述特征词所属的类别；

针对属于同一类别的特征词，根据该类别的各个特征词的参数值确定该类别对应的参数值；