[发明专利]一种基于类内类间文档频和词频统计的特征选择方法在审
申请号: | 201810131876.8 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108491429A | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 邵雄凯;赵婧;刘建舟;王春枝;华满;阳邹;陈亮亮 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430068 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 特征选择 词频统计 特征词 训练集 词库 评估函数 原始特征空间 词频 文本预处理 集中分布 中文文本 综合考虑 分散度 集中度 并集 分类 | ||
1.一种基于类内类间文档频和词频统计的特征选择方法,其特征在于,包括以下步骤:
步骤1:训练集中的文本经过分词、去停用词后由词项表示,记为原始特征空间;输入训练集原始所有的特征词,其中原始特征空间中特征词记为tk,0≤k≤N,N为原始特征空间中特征词总数;
步骤2:综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计的特征选择评估函数,用于计算类内类间文档频和词频统计值DFCTFS;
步骤3:依据所得原始特征空间,构造一个特征词、类别的二维矩阵,其中行代表特征词,列代表类别,矩阵中的元素为DFCTFS值;
步骤4:依据训练集各类别中各特征词的DFCTFS值,对训练集每个类别中的特征词进行降序排列;
步骤5:获得训练集中总类别数M以及训练集中特征词的总个数N,取一定比例的特征词,记为numWords,则各类别中选择的特征词个数num为numWords除以M;
步骤6:训练集各类别中都依据步骤5中所得num值,选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库;
步骤7:得到训练集的特征词库,即为各类别所得特征词库的并集。
2.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤2中所述基于类内类间文档频和词频统计的特征选择评估函数为:
式中,DFCTFS(tk,Ci)表示特征词tk在类别Ci中的类内类间文档频和词频统计值DFCTFS,DF(tk,Ci)表示特征词tk在类别Ci中出现的文本数,DF(tk)表示特征词tk在训练集所有类别中出现的文本数总和,DF(t,Ci)表示类别Ci中所有特征词出现的文本数的总和,TF(tk,Ci)表示特征词tk在类别Ci中出现的次数,numDocsi表示类别Ci的文本数,M表示类别数。
3.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤3的具体实现包括以下步骤:
步骤3.1:针对训练集中的各个类别,统计特征词tk在第Ci类别中出现的文本数DF(tk,Ci)和次数TF(tk,Ci);其中,k=1...N,N为特征词总数;i=1...M,M为类别数;
步骤3.2:根据tk,Ci定位到二维矩阵相应位置,利用基于类内类间文档频和词频统计的特征选择评估函数,计算Ci类别的特征词tk的DFCTFS值,从而构造出训练集的特征词、类别的N*M的二维矩阵。
4.根据权利要求1-3任意一项所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,所述特征选择方法的有效性评估,包括以下步骤:
步骤8:建立文本表示模型;
根据特征词库,计算训练集中每篇文本对应的特征词的权重,将训练集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
步骤9:使用分类算法分类;对训练集使用分类算法进行分类器训练,得到分类模型;
步骤10:分类器性能评估;
针对测试集,经过分词、去停用词后由词项表示,并计算测试集中每篇文本对应的特征词的权重,将测试集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
利用训练得到的分类模型,对测试集进行分类,利用召回率、准确率、F1值,实现对分类器的性能评价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810131876.8/1.html,转载请声明来源钻瓜专利网。