[发明专利]一种基于类内类间文档频和词频统计的特征选择方法在审
申请号: | 201810131876.8 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108491429A | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 邵雄凯;赵婧;刘建舟;王春枝;华满;阳邹;陈亮亮 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430068 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于类内类间文档频和词频统计的特征选择方法,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计(DFCTFS)的特征选择评估函数;将训练集经过文本预处理后的原始特征空间使用本发明提出的特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为训练集各类别特征词库的并集。本发明提出一种基于类内类间文档频和词频统计(DFCTFS)的特征选择方法,可实现特征选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词,提高中文文本分类的效果。 | ||
搜索关键词: | 文档 特征选择 词频统计 特征词 训练集 词库 评估函数 原始特征空间 词频 文本预处理 集中分布 中文文本 综合考虑 分散度 集中度 并集 分类 | ||
【主权项】:
1.一种基于类内类间文档频和词频统计的特征选择方法,其特征在于,包括以下步骤:步骤1:训练集中的文本经过分词、去停用词后由词项表示,记为原始特征空间;输入训练集原始所有的特征词,其中原始特征空间中特征词记为tk,0≤k≤N,N为原始特征空间中特征词总数;步骤2:综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计的特征选择评估函数,用于计算类内类间文档频和词频统计值DFCTFS;步骤3:依据所得原始特征空间,构造一个特征词、类别的二维矩阵,其中行代表特征词,列代表类别,矩阵中的元素为DFCTFS值;步骤4:依据训练集各类别中各特征词的DFCTFS值,对训练集每个类别中的特征词进行降序排列;步骤5:获得训练集中总类别数M以及训练集中特征词的总个数N,取一定比例的特征词,记为numWords,则各类别中选择的特征词个数num为numWords除以M;步骤6:训练集各类别中都依据步骤5中所得num值,选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库;步骤7:得到训练集的特征词库,即为各类别所得特征词库的并集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810131876.8/,转载请声明来源钻瓜专利网。