[发明专利]一种基于类内类间文档频和词频统计的特征选择方法在审

专利信息
申请号: 201810131876.8 申请日: 2018-02-09
公开(公告)号: CN108491429A 公开(公告)日: 2018-09-04
发明(设计)人: 邵雄凯;赵婧;刘建舟;王春枝;华满;阳邹;陈亮亮 申请(专利权)人: 湖北工业大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 魏波
地址: 430068 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 特征选择 词频统计 特征词 训练集 词库 评估函数 原始特征空间 词频 文本预处理 集中分布 中文文本 综合考虑 分散度 集中度 并集 分类
【权利要求书】:

1.一种基于类内类间文档频和词频统计的特征选择方法,其特征在于,包括以下步骤:

步骤1:训练集中的文本经过分词、去停用词后由词项表示,记为原始特征空间;输入训练集原始所有的特征词,其中原始特征空间中特征词记为tk,0≤k≤N,N为原始特征空间中特征词总数;

步骤2:综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计的特征选择评估函数,用于计算类内类间文档频和词频统计值DFCTFS;

步骤3:依据所得原始特征空间,构造一个特征词、类别的二维矩阵,其中行代表特征词,列代表类别,矩阵中的元素为DFCTFS值;

步骤4:依据训练集各类别中各特征词的DFCTFS值,对训练集每个类别中的特征词进行降序排列;

步骤5:获得训练集中总类别数M以及训练集中特征词的总个数N,取一定比例的特征词,记为numWords,则各类别中选择的特征词个数num为numWords除以M;

步骤6:训练集各类别中都依据步骤5中所得num值,选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库;

步骤7:得到训练集的特征词库,即为各类别所得特征词库的并集。

2.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤2中所述基于类内类间文档频和词频统计的特征选择评估函数为:

式中,DFCTFS(tk,Ci)表示特征词tk在类别Ci中的类内类间文档频和词频统计值DFCTFS,DF(tk,Ci)表示特征词tk在类别Ci中出现的文本数,DF(tk)表示特征词tk在训练集所有类别中出现的文本数总和,DF(t,Ci)表示类别Ci中所有特征词出现的文本数的总和,TF(tk,Ci)表示特征词tk在类别Ci中出现的次数,numDocsi表示类别Ci的文本数,M表示类别数。

3.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤3的具体实现包括以下步骤:

步骤3.1:针对训练集中的各个类别,统计特征词tk在第Ci类别中出现的文本数DF(tk,Ci)和次数TF(tk,Ci);其中,k=1...N,N为特征词总数;i=1...M,M为类别数;

步骤3.2:根据tk,Ci定位到二维矩阵相应位置,利用基于类内类间文档频和词频统计的特征选择评估函数,计算Ci类别的特征词tk的DFCTFS值,从而构造出训练集的特征词、类别的N*M的二维矩阵。

4.根据权利要求1-3任意一项所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,所述特征选择方法的有效性评估,包括以下步骤:

步骤8:建立文本表示模型;

根据特征词库,计算训练集中每篇文本对应的特征词的权重,将训练集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;

步骤9:使用分类算法分类;对训练集使用分类算法进行分类器训练,得到分类模型;

步骤10:分类器性能评估;

针对测试集,经过分词、去停用词后由词项表示,并计算测试集中每篇文本对应的特征词的权重,将测试集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;

利用训练得到的分类模型,对测试集进行分类,利用召回率、准确率、F1值,实现对分类器的性能评价。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810131876.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top