[发明专利]一种文本分类特征选择方法有效
申请号: | 201710181572.8 | 申请日: | 2017-03-24 |
公开(公告)号: | CN107016073B | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 张晓彤;余伟伟;刘喆;王璇 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 特征 选择 方法 | ||
本发明提供一种文本分类特征选择方法,能够降低特征维度和分类复杂度、并提高分类准确性。所述方法包括:获取特征集S和目标类别C,计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc(x(i))大小对特征集S进行降序排序;计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,结合对特征集S的降序排序结果,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc;计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整。本发明适用于机器学习文本分类领域。
技术领域
本发明涉及机器学习文本分类领域,特别是指一种文本分类特征选择方法。
背景技术
随着互联网规模的不断扩大,汇聚在互联网中的信息资源也不断增多。为了有效的管理和方便的利用这些信息资源,基于内容的信息检索和数据挖掘一直以来备受关注。文本分类技术是信息检索和文本数据挖掘的重要基础,其主要任务是根据未知类别的文字和文档的内容,将它们判别为预先给定类别中的一个或多个。然而,训练样本数量大和向量维数高这两大特点,决定了文本分类是一个运算时间和空间复杂度都很高的机器学习问题。因此,我们需要进行特征选择,在尽可能保证分类性能的同时降低特征维度。
特征选择是一个重要的数据预处理过程,在常用的文本分类特征选择方法中,卡方检验(Chi-Square)通过建立零假说,假定词与目标类别不相关,选择偏离假设程度大的词作为特征。但它只统计文档中是否出现某词,而不管出现了几次,这使得它对低频词有所偏袒。互信息(Mutual Information)方法通过度量词的存在给目标类别带来的信息量来选择特征。但它只考虑了词与目标类别之间的关联度,忽视了词与词之间可能存在的依赖。TF-IDF(Term Frequency-Inverse Document Frequency)方法综合考虑词在文件中出现的频率和词在所有文件中的分布来评估词的重要程度,从而进行特征选取。但是它只是单纯的认为文本频率小的词就越重要而文本频率大的词就越无用,因此精度并不是很高。此外还有信息增益、优势率、文本证据权、期望交叉熵等特征选择方法,它们大多都是只考虑了词与目标类别之间的相关程度或词与词之间的相关程度,容易出现降维程度不够或分类精度不高的问题。
发明内容
本发明要解决的技术问题是提供一种文本分类特征选择方法,以解决现有技术所存在的特征维度高或分类精度低的问题。
为解决上述技术问题,本发明实施例提供一种文本分类特征选择方法,包括:
步骤1:获取特征集S和目标类别C,计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc大小对特征集S进行降序排序;
步骤2:计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,结合对特征集S的降序排序结果,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710181572.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新型录音间隔音装置
- 下一篇:一种具有定时功能的声音报时播放器