[发明专利]基于词频差值因子的特征选择方法有效
申请号: | 202110466347.5 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113515623B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 周红芳;李想;马一鸣 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王敏强 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词频 差值 因子 特征 选择 方法 | ||
本发明公开一种基于词频差值因子的特征选择方法,首先选择文档数量不同、特征个数为几千甚至上万的文本类型数据集,去掉出现的文档数多于总数的25%或少于3篇的词语;针对未划分训练集和测试集的数据集采用5折交叉验证法处理;根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理;采用朴素贝叶斯算法、支持向量机算法训练分类模型,进行预测,得到分类结果;对分类效果进行评估,宏F1和微F1分数越高,则证明分类的效果越好,进而证明特征选择算法性能越好。本发明在计算词语与类别的相关性时能够兼顾文档频率以及词频对其重要性的影响,最终选择出具有高度类别区分能力的词语,提高分类的准确率与效率。
技术领域
本发明属于文本分类技术领域,具体涉及一种基于词频差值因子的特征选择方法。
背景技术
互联网的普及以及信息技术的发展给带来智能化的体验,极大地丰富了的生活,同时也提高了日常学习、工作的效率。如今网络上涌现出各种各样的信息平台或社交软件,而这些平台每秒都在产生海量的数据,其中以文档形式存储的数据占有重要的比重,比如电商平台(如天猫、京东等)上登记的个人信息、用户的消费记录、评价,或音乐、视频软件产生的用户评论,以及电子邮件等等。面对海量数据,以人工手段高效准确地提取其中有价值的信息是难以实现的,必须依靠机器学习算法以及自然语言处理技术对文本类型的数据进行处理。其中文本分类技术至关重要。文本分类使得可以根据一定的判别标准对数据集中的文本数据进行类别划分,从中提取有价值的信息,提高数据处理效率。文本分类技术得到了广泛的使用,在医学、生物学、交通管理、金融、地理信息等领域都有深入的应用。
文本分类主要包括以下三个阶段:预处理、特征选择、训练模型进行分类。由于文本数据的特征是构成它的一个个词语,处理的时候不可避免地会出现“维灾”的现象,因此在分类之前必须对数据集进行特征选择。特征选择算法主要包括过滤式、包装式和嵌入式三种类型。本发明是基于词频和文档频率的过滤式特征选择算法,通过计算文档中每一个词语的得分并根据得分高低对词语进行排序,选出与类别高度相关的词语作为最优特征,从而达到降维的目的。
现如今大多数特征选择算法是基于文档频率解决问题的,常见的算法包括最大最小比率(MMR)、卡方检验(CHI)、基尼系数(GINI)以及信息增益(IG)。它们将词语在每个类别中出现的文档数量视为重点进行研究,却忽略了一篇文章中词语本身出现的次数对其重要性的评估也有很大的影响。最近提出的三角比较度量算法(TCM)是优秀的基于文档频率的特征选择算法,它解决了经典的NDM算法中分母存在断点的问题以及赋予高度稀疏的词语过高分数的问题。然而,该方法忽略了词频对词语重要性的影响。因此,项目组提出将词频与文档频率相结合的特征选择方法,分别计算出现在正类文档以及负类文档中的平均词频,并求取两者之差作为该词语在词频层面上的权重。
发明内容
本发明的目的是提供一种基于词频差值因子的特征选择方法,使得算法在计算词语与类别的相关性时能够同时兼顾文档频率以及词频对其重要性的影响,最终选择出具有高度类别区分能力的词语,提高分类的准确率与效率。
本发明所采用的技术方案是,基于词频差值因子的特征选择方法,具体按照以下步骤实施:
步骤1、选择文档数量不同、特征个数为几千甚至上万的文本类型数据集,去掉数据集中出现且文档数多于总数的25%或少于3篇的词语;针对未划分训练集和测试集的数据集则采用5折交叉验证法进行处理;
步骤2、将最优特征子集元素的个数设置为C,使用特征选择目标函数计算训练集数据每个特征词的得分,按照分数对特征词进行降序排列,选择前C个特征词组成最优特征子集;最终根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理;
步骤3、利用步骤2得到的训练集分别采用朴素贝叶斯分类器、支持向量机分类器进行训练,训练出分类模型,并对经过步骤2处理的测试集样本类别进行预测,得到分类结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110466347.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:印台印章综合测试仪
- 下一篇:一种电子束光刻辅助工艺制造方法