[发明专利]一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置在审
申请号: | 201510770947.5 | 申请日: | 2015-11-12 |
公开(公告)号: | CN105224695A | 公开(公告)日: | 2016-01-06 |
发明(设计)人: | 陈科文;张祖平;龙军;胡扬 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 长沙市融智专利事务所 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 文本 特征 量化 方法 装置 分类 | ||
技术领域
本发明属于文本挖掘与机器学习技术领域,特别涉及一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置。
背景技术
大规模文本数据的组织和挖掘经常依赖于自动文本分类技术。自动文本分类技术一般在分类之前需要对文本的特征进行量化,以便于计算机用有监督的机器学习方法进行分类处理。文本的特征可用一些词汇来描述,文本特征的量化就是从文本中挑选一些词汇作为特征词,并为它们分配不同的权重,从而把每个文本文档都表示成由多个特征词的权重值所组成的向量(称为特征向量)。可见,文本特征的量化包含特征词的选择和权重计算两方面。特征选择有很多方法,其中常用的方法(或特征选择指标)有卡方统计量(Chi-squarestatistics,或简写为CHI或χ2)、信息增益(informationgain,IG)、互信息量(mutualinformation,MI)、奇异比值(oddsratio,OR)、等等。研究表明,卡方统计量(CHI)或信息增益(IG)的性能都比较好。特征词权重计算也有很多方法,其中,最著名的传统方法就是TF-IDF(termfrequency&inversedocumentfrequency,词频-反文档频率)方法,它最初被用于信息检索领域,后来也被用于文本分类领域。但是TF-IDF方法在计算特征词的权重时并没有考虑文本的类别,计算结果存在偏差,影响了文本分类准确率。于是研究人员提出了一系列利用了已知的文本类别信息的替代方法,统称为有监督的词加权(supervisedtermweighting,或简写为STW)方法。但是,很多STW方法都只利用了特征词在正反两类文本上的粗糙分布信息,对于多类别文本的分类并不是最优的。而基于信息熵的权重计算方法利用了特征词在多个文本类别上的精细分布信息,因此可以得到比传统的TF-IDF方法和其它STW方法更为精确的特征词权重值,从而有望进一步提高文本分类的性能。尽管现有的某些方法在特定的语料库上表现较好,但在其它语料库上却表现较差,其性能不稳定。
发明内容
本发明提供了一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置,根据特征词在文本集(或语料库)的所有不同文本类别上分布的信息熵来计算特征词的全局权重因子,并与基于词频的局部权重因子相结合来为各个特征词分配合适的权重,从而把每个文本文档都表示成特征向量,使得不同类别的文本特征差异更加突出,提高了文本分类的准确率,并且性能更加稳定。
一种用于文本分类的文本特征量化方法,包括以下步骤:
步骤1:将已分类的训练文本集和待分类的文本集进行预处理;
所述已分类的训练文本集简称为训练集,其中每个文档都带有类别标签;
所述待分类的文本集为无类别标签的文本集或带有类别标签的测试文本集;
所述文档是指被分类的文本数据单元;内容为文本数据的文档也称为文本文档;
所述文本集是指文本数据集,它是由很多相同或不同类别的文本文档组成的;
所述文本分类是指为文本文档分配与其内容相符的预定义的类别标签;
所述预处理是指对文本进行分词和去噪处理,所述去噪包括去除标点符号、数字及停用词,将英文字母转换为小写、提取英文单词的词根;
步骤2:从预处理后的训练集中提取不同的特征词,构建由不同的特征词组成的初始词表,并且统计训练集中的每个文本类别的文档数目、每个特征词的类别文档频率;
所述特征词是指文本中的各个单独的词汇(比如英语单词、汉语词组)或其它不包含空格或标点符号的连续字符串,每个特征词代表文本的一个特征或属性;
所述特征词的类别文档频率是指包含某特征词的属于某个文本类别的训练文档数目;
同时,统计训练集与待分类的文本集中每个文档包含的每个特征词的词频,所述每个文档包括训练文档和待分类文档,所述词频(termfrequency或简写为TF)是指某特征词在一篇文档中的出现频次;
步骤3:根据特征选择指标对初始词表进行筛选,保留指标计算值大的特征词作为文本的特征或属性,构建新的特征词表;
待分类的文本集和训练集使用相同的特征词表;
所述特征选择指标包括卡方统计量(Chi-squarestatistics)或信息增益(informationgain);
所述筛选方法是先计算每个特征词的特征选择指标,将所有特征词的特征选择指标计算值按照从大到小排序,选择排列在前面的200~9000个特征词作为文本的特征或属性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510770947.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置