[发明专利]一种改进的互信息特征选择方法有效
申请号: | 201910212325.9 | 申请日: | 2019-03-20 |
公开(公告)号: | CN110069630B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 文武;李培强;刘颖;解如风;范荣妹 | 申请(专利权)人: | 重庆信科设计有限公司;重庆市质量和标准化研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2413;G06F18/214;G06F40/284 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 401121 重庆市北部*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 互信 特征 选择 方法 | ||
1.一种改进的互信息特征选择方法,其特征在于,包括以下步骤:
步骤1:将文本数据分为测试集和训练集,并采用包括分词、去停用词在内的预处理步骤,即从句子中划分出每个有独立意义的词,并将其中对分类结果没有贡献的特征词根据提前建立的停用词表进行剔除;
步骤2:构建互信息特征评估函数:对传统的互信息评估函数进行改进,在传统的互信息评估函数基础上分别引入类内特征频度、特征词覆盖率及词性系数进行特征提取;
步骤3:筛选特征集合,对已经通过改进的互信息模型提取的特征词,筛选出互信息值在指定区间内的特征词,筛选过程中通过设定特征词的最大最小互信息值来确定,并组成特征词集合;
步骤4:KNN分类,对已经选出的特征词集合利用K近邻分类模型对其进行分类,用查准率,查全率和F1值评估分类结果;
所述步骤2的传统的互信息特征评估函数为:
其中,x、y分别指的是文本集合中的特征词与类别,MI(X,Y)指的是特征词的互信息值,P(x,y)表示特征词和类别的相关概率,p(x)表示特征词在其所属类别文档中出现的概率,即该特征词与其所属类别文档中出现的特征词频率之比,p(y)表示类别y的文档数量与文本集合中所有文档的数量之比;
在文本分类中,x,y分别对应特征词t和类别c,互信息计算公式近似为:
其中,p(t|ci)表示特征词t在类别ci中的概率,p(t)表示特征词在整个文本集合中的概率,MI(t,ci)越大,表示特征词t对文本类别ci具有越高的辨识度;
所述步骤2对传统的互信息模型引入类内特征频度,计算公式为:
其中,m表示类别cj中的文本总数,FR(t,cj)表示的是特征词t在类别cj中的特征频度,n表示文本集合中的总的类别数,tfjk表示的是特征词t在第j个类别cj中的第k篇文档中出现的频率,由公式可知FR(t,cj)值越大,表明特征词t在类别cj中出现的次数越多,特征词t越能代表类别cj;
所述步骤2对传统的互信息模型引入特征词覆盖率,计算公式为:
其中,m表示类别cj中的文本总数,tfjk表示特征词t在类别cj中的文本djk(1≤k≤m)中出现的次数;从公式可以看出,ρ越大,说明特征词t对类别cj的覆盖率越大,特征词挣在类别cj中分布的越均匀;
所述步骤2对传统的互信息模型引入词性系数,公式如下:
由公式可知,特征词不同的词性会影响其词性系数的取值,其中0<η<ξ<1,η,ξ分别表示特征词t在不同词性下的取值,该取值的大小由多次试验确定,改进的互信息特征函数为:
2.根据权利要求1所述的一种改进的互信息特征选择方法,其特征在于,所述步骤3利用空间向量模型对筛选的特征数据集进行向量化,空间向量模型计算公式如下所示:
其中,D=<t1,w1;t2,w2;t3,w3.......;ti,wi;tn,wn>,tn表示特征词集合中第n个特征词,wn表示特征词集合中第n个特征词tn的权重值,Wi表示在待测文本D中特征词ti的权重值,特征词ti在文档中出现的频率用tfi表示,训练集中所有文档的数目用N表示,包含特征词ti的文档出现的频率用表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆信科设计有限公司;重庆市质量和标准化研究院,未经重庆信科设计有限公司;重庆市质量和标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910212325.9/1.html,转载请声明来源钻瓜专利网。