[发明专利]一种基于类内类间文档频和词频统计的特征选择方法在审
申请号: | 201810131876.8 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108491429A | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 邵雄凯;赵婧;刘建舟;王春枝;华满;阳邹;陈亮亮 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430068 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 特征选择 词频统计 特征词 训练集 词库 评估函数 原始特征空间 词频 文本预处理 集中分布 中文文本 综合考虑 分散度 集中度 并集 分类 | ||
本发明公开了一种基于类内类间文档频和词频统计的特征选择方法,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计(DFCTFS)的特征选择评估函数;将训练集经过文本预处理后的原始特征空间使用本发明提出的特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为训练集各类别特征词库的并集。本发明提出一种基于类内类间文档频和词频统计(DFCTFS)的特征选择方法,可实现特征选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词,提高中文文本分类的效果。
技术领域
本发明属于中文文本分类技术领域,涉及一种特征选择方法,具体涉及一种基于类内类间文档频和词频统计的特征选择方法。
背景技术
中文文本分类整体思路大致为:文本预处理,特征选择,建立文本表示模型,使用分类算法分类,分类模型评估。特征选择是中文文本分类的关键步骤,它是指从高维的原始特征空间中选择一部分重要特征,组成一个低维空间,从而提高分类精度和分类效率。
传统的特征选择方法有:文档频率(DF)、互信息(MI)、信息增益(IG)、卡方统计量(CHI)等。特征选择的做法一般是选用一个评估函数对原始的n个特征项进行计算,对计算所得的值按降序排列,从原始特征项集合中选出含信息量较多的前P个特征项。
传统的特征选择方法中CHI和IG被证明是文本分类效果较好的两种特征选择方法。CHI以特征词t与类别Ci相互独立为前提,计算这两个变量之间的值(即偏差程度),如果计算得到的值越大(即偏差较大),则特征词t与类别Ci越相关。但是,传统的CHI方法存在着不足,(1)未考虑特征词在各类别中的词频分布,只考虑了特征词的文档频,导致CHI可能会选择文档频率高但词频低的特征词。(2)可能会选择与类别负相关的特征词。
IG用于文本的特征选择时,衡量的是某个词的出现与否对判断一个文本是否属于该类所提供的信息量,信息量的多少由熵来衡量。IG即为不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值,该差值表示信息不确定性的减少程度。信息不确定性减少程度越大,相应的信息增益越大,该词项提供的信息越多,该词项越重要。但是,传统的IG方法存在着不足,(1)未考虑特征词在各类别中的词频分布;(2)特征词负相关性的干扰;(3)只能做全局的特征选择(指训练集中所有类别都使用相同的特征集合),而无法做本地的特征选择(指训练集中每个类别都有自己的特征集合)。
训练集通过预处理和特征选择后形成特征词库。CHI特征选择方法是依据CHI评估函数,得到各特征词在训练集各个类别的CHI值,使用特征词在所有类别中的CHI值的平均值或者最大值作为该特征词在整个训练集中的CHI值,将所有特征词按CHI值降序排列,选取一定比例的特征词作为整个训练集的特征词库。IG特征选择方法是依据IG评估函数,得到各特征词在整个训练集中的IG值,将所有特征词按IG值降序排列,选取一定比例的特征词作为整个训练集的特征词库。
综合分析CHI和IG的不足,可以得出,文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,本发明综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计(Document Frequency of within-class and between-class and TermFrequency Statistics,DFCTFS)的特征选择方法,提高分类的精度。
发明内容
本发明的目的在于提供一种基于类内类间文档频和词频统计的特征选择方法,优化特征选择的结果,提高中文文本分类的精度。
本发明所采用的技术方案是:1.一种基于类内类间文档频和词频统计的特征选择方法,其特征在于,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810131876.8/2.html,转载请声明来源钻瓜专利网。