[发明专利]基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置有效
申请号: | 201510165395.5 | 申请日: | 2015-04-09 |
公开(公告)号: | CN104750844B | 公开(公告)日: | 2016-03-02 |
发明(设计)人: | 龙军;陈科文;张祖平;杨柳 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 长沙市融智专利事务所43114 | 代理人: | 黄美成 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开了一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置,通过建立反重力矩(IGM)模型来计算特征词在不同类别文本中分布的集中度,并在此基础上计算特征词的权重。计算所得权重更能逼真地反映特征词在文本分类中的重要性,提高了文本分类器的性能。基于TF-IGM方法的文本特征向量生成装置具备多个选项,可根据文本分类性能测试结果进行优化调节,适应具有不同特性的文本数据集。在公共的英文语料库和中文语料库上的实验表明,TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越,尤其适合两类以上的多类别文本分类应用。 | ||
搜索关键词: | 基于 tf igm 文本 特征向量 生成 方法 装置 分类 | ||
【主权项】:
一种用于文本分类的特征向量生成方法,其特征在于,包括以下步骤:步骤1:将已分类的训练文本集和待分类的文本集进行预处理;所述已分类的训练文本集简称为训练集,其中每个文档都带有类别标签;所述待分类的文本集为无类别标签的文本集或带有类别标签的测试文本集;所述预处理是指对文本进行分词和去噪处理,所述去噪包括去除标点符号、数字及停用词;步骤2:从预处理后的训练集中提取不同的词条,构建由不同的词条组成的初始词表;并且统计训练集中的每个文本类别的文档数目、每个词条的类别文档频率;所述词条类别文档频率是指包含某词条的属于某个文本类别的训练文档数目;同时,统计训练集与待分类的文本集中每个文档包含的每个词条的词频,所述每个文档包括训练文档和待分类文档,所述词频是指某词条在一篇文档中的出现频次;步骤3:根据特征选择指标对初始词表进行筛选,保留指标计算值大的词条作为文本的特征词,构建新的特征词表;待分类的文本集和训练集使用相同的特征词表;所述特征选择指标包括卡方统计量或信息增益;所述筛选方法是先计算每个词条的特征选择指标,将所有词条的特征选择指标计算值按照从大到小排序,选择排列在前面的600~6000个词条作为特征词;步骤4:用TF?IGM方法计算每个特征词在文档中的权重,并生成文档特征向量;所述TF?IGM方法是先按照以下公式计算特征词tk在文档di中的权重W(tk,di);再按照以下公式对特征词权重进行归一化处理;最后用每个特征词的归一化权重值组成文档di的特征向量Di=[w‾(t1,di),w‾(t2,di),...,w‾(tn,di)];]]>W(tk,di)=Wlocaltf(tk,di)·Wglobalcicd(tk)]]>w‾(tk,di)=W(tk,di)Σtj∈diW(tj,di)2]]>其中,k,j=1,2,…,n,n为经过步骤3筛选后保留的不同特征词的数量;为基于词频的局部权重因子,为基于类间分布集中度的全局权重因子;tfki为特征词tk在文档di中的原始词频,log(tfki+1)是对数词频,是开方词频,取三者中的任意一个值;所述基于类间分布集中度的全局权重因子采用类间分布集中度、类间分布集中度与类内分布均匀度结合、类间分布集中度与反文档频率结合、或者类间分布集中度与反词频结合进行计算获得。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510165395.5/,转载请声明来源钻瓜专利网。