[发明专利]一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置在审

申请号：	201510770947.5	申请日：	2015-11-12
公开（公告）号：	CN105224695A	公开（公告）日：	2016-01-06
发明（设计）人：	陈科文;张祖平;龙军;胡扬	申请（专利权）人：	中南大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	长沙市融智专利事务所 43114	代理人：	龚燕妮
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于信息文本特征量化方法装置分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于文本挖掘与机器学习技术领域，特别涉及一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置。

背景技术

大规模文本数据的组织和挖掘经常依赖于自动文本分类技术。自动文本分类技术一般在分类之前需要对文本的特征进行量化，以便于计算机用有监督的机器学习方法进行分类处理。文本的特征可用一些词汇来描述，文本特征的量化就是从文本中挑选一些词汇作为特征词，并为它们分配不同的权重，从而把每个文本文档都表示成由多个特征词的权重值所组成的向量(称为特征向量)。可见，文本特征的量化包含特征词的选择和权重计算两方面。特征选择有很多方法，其中常用的方法(或特征选择指标)有卡方统计量(Chi-squarestatistics，或简写为CHI或χ²)、信息增益(informationgain，IG)、互信息量(mutualinformation，MI)、奇异比值(oddsratio,OR)、等等。研究表明，卡方统计量(CHI)或信息增益(IG)的性能都比较好。特征词权重计算也有很多方法，其中，最著名的传统方法就是TF-IDF(termfrequency&inversedocumentfrequency，词频-反文档频率)方法，它最初被用于信息检索领域，后来也被用于文本分类领域。但是TF-IDF方法在计算特征词的权重时并没有考虑文本的类别，计算结果存在偏差，影响了文本分类准确率。于是研究人员提出了一系列利用了已知的文本类别信息的替代方法，统称为有监督的词加权(supervisedtermweighting,或简写为STW)方法。但是，很多STW方法都只利用了特征词在正反两类文本上的粗糙分布信息，对于多类别文本的分类并不是最优的。而基于信息熵的权重计算方法利用了特征词在多个文本类别上的精细分布信息，因此可以得到比传统的TF-IDF方法和其它STW方法更为精确的特征词权重值，从而有望进一步提高文本分类的性能。尽管现有的某些方法在特定的语料库上表现较好，但在其它语料库上却表现较差，其性能不稳定。

发明内容

本发明提供了一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置，根据特征词在文本集(或语料库)的所有不同文本类别上分布的信息熵来计算特征词的全局权重因子，并与基于词频的局部权重因子相结合来为各个特征词分配合适的权重，从而把每个文本文档都表示成特征向量，使得不同类别的文本特征差异更加突出，提高了文本分类的准确率，并且性能更加稳定。

一种用于文本分类的文本特征量化方法，包括以下步骤：

步骤1：将已分类的训练文本集和待分类的文本集进行预处理；

所述已分类的训练文本集简称为训练集，其中每个文档都带有类别标签；

所述待分类的文本集为无类别标签的文本集或带有类别标签的测试文本集；

所述文档是指被分类的文本数据单元；内容为文本数据的文档也称为文本文档；

所述文本集是指文本数据集，它是由很多相同或不同类别的文本文档组成的；

所述文本分类是指为文本文档分配与其内容相符的预定义的类别标签；

所述预处理是指对文本进行分词和去噪处理，所述去噪包括去除标点符号、数字及停用词，将英文字母转换为小写、提取英文单词的词根；

步骤2：从预处理后的训练集中提取不同的特征词，构建由不同的特征词组成的初始词表，并且统计训练集中的每个文本类别的文档数目、每个特征词的类别文档频率；

所述特征词是指文本中的各个单独的词汇(比如英语单词、汉语词组)或其它不包含空格或标点符号的连续字符串，每个特征词代表文本的一个特征或属性；

所述特征词的类别文档频率是指包含某特征词的属于某个文本类别的训练文档数目；

同时，统计训练集与待分类的文本集中每个文档包含的每个特征词的词频，所述每个文档包括训练文档和待分类文档，所述词频(termfrequency或简写为TF)是指某特征词在一篇文档中的出现频次；