[发明专利]一种改进的互信息特征选择方法有效
申请号: | 201910212325.9 | 申请日: | 2019-03-20 |
公开(公告)号: | CN110069630B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 文武;李培强;刘颖;解如风;范荣妹 | 申请(专利权)人: | 重庆信科设计有限公司;重庆市质量和标准化研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2413;G06F18/214;G06F40/284 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 401121 重庆市北部*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 互信 特征 选择 方法 | ||
本发明请求保护一种改进的互信息特征选择方法。包括步骤:首先,对文本数据分为测试集和训练集并分别做分词、去停用词处理,在特征选择时分别引入类内特征频度和特征词覆盖率,并结合特征词的词性系数,与改进的互信息模型相结合,构造出新的特征权重评估函数;其次,利用改进的互信息模型进行特征选择并设置最大最小互信息值,筛选出满足条件的特征词集合并使用空间向量模型对特征词集合向量化;最后,使用K近邻(KNN)分类算法对特征词集合进行分类,使用查准率,查全率和F1值评估分类结果。本发明减少了数据处理的时间消耗,提升了分类的准确率,通过对引入的参数调节来适应多样的分类模型,实现文本分类系统的最优设计。
技术领域
本发明属于机器学习领域,尤其涉及一种基于统计的文本分类方法。文本分类主要是通过提取未分类文本的一些信息,然后再根据提取到的信息,自动将其分到预先设定的一个或几个类别中,从而使得人们能够快速准确地寻找到所需的信息。
背景技术
目前在文本分类的过程中,首先需要利用分词系统对待分类文本进行分词,然后根据事先建立好的停用词表将分得的词进行去停用词处理,最后得到待分类文本的初始特征词集。若直接使用初始特征词集作为文本的特征向量,对文本进行分类,必定会因为特征向量空间的维数过大,导致分类的准确率和效率低下。因此,需要采用合适的方法对初始特征集进行筛选,选出一些最具有代表性的特征来表征文本,从而来降低特征维度。如何从文本的初始特征集中筛选出最具有代表性的特征来表征文本,这是文本特征选择技术需要解决的主要问题。文本特征选择技术作为主要的特征降维手段,与文本分类的准确率和效率密切相关。
传统的特征选择算法依然存在一定的不足,例如在文本分布不均匀的语料中采用传统算法对文本进行特征选择,分类的效率和准确率都会明显降低。文本分类效率和准确率的降低,使得人们难以在杂乱的文本中快速准确地找到自己所需的信息。因此,为了提高文本分类效率,就需要我们对传统特征选择算法做进一步的研究和改进。
目前传统的互信息特征选择方法在文本分类过程中没有考虑词频信息、类内的特征词的分布情况、特征词的词性导致文本分类的效率和准确率低下。通过引入特征词覆盖率、类内特征频度和词性系数,可以有效的解决这些问题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种减少了数据处理的时间消耗,提升了分类的准确率的改进的互信息特征选择方法。本发明的技术方案如下:
一种改进的互信息特征选择方法,其包括以下步骤:
步骤1:将文本数据分为测试集和训练集,并采用包括分词、去停用词在内的预处理步骤,即从句子中划分出每个有独立意义的词,并将其中对分类结果没有贡献的特征词根据提前建立的停用词表进行剔除;
步骤2:构建互信息特征评估函数:对传统的互信息评估函数进行改进,在传统的互信息评估函数基础上分别引入类内特征频度、特征词覆盖率及词性系数进行特征提取;
步骤3:筛选特征集合,对已经通过改进的互信息模型提取的特征词,筛选出互信息值在指定区间内的特征词,筛选过程中通过设定特征词的最大最小互信息值来确定,并组成特征词集合;
步骤4:KNN分类,对已经选出的特征词集合利用K近邻分类模型对其进行分类,用查准率,查全率和F1值评估分类结果;
进一步的,所述步骤2的传统的互信息特征评估函数为:
其中,x,y分别指的是文本集合中的特征词与类别。MI(X,Y)指的是特征词的互信息值,P(x,y)表示特征词和类别的相关概率,p(x)表示特征词在其所属类别文档中出现的概率,即该特征词与其所属类别文档中出现的特征词频率之比。p(y)表示类别y的文档数量与文本集合中所有文档的数量之比。
在文本分类中,x,y分别对应特征词t和类别c,互信息计算公式近似为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆信科设计有限公司;重庆市质量和标准化研究院,未经重庆信科设计有限公司;重庆市质量和标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910212325.9/2.html,转载请声明来源钻瓜专利网。