[发明专利]一种采用并行二进制蝙蝠算法优化文本特征选择的方法有效

专利信息
申请号: 201910265124.5 申请日: 2019-04-03
公开(公告)号: CN110020435B 公开(公告)日: 2023-04-07
发明(设计)人: 陈宏伟;侯乔;胡周;韩麟;符恒;常鹏阳;徐慧;严灵毓;叶志伟;宗欣露 申请(专利权)人: 湖北工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/289;G06N3/006
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 魏波
地址: 430068 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 采用 并行 二进制 蝙蝠 算法 优化 文本 特征 选择 方法
【说明书】:

发明公开了一种采用并行二进制蝙蝠算法优化文本特征选择的方法,该方法利用传统的特征选择方法对原始特征进行预选,在此基础上使用蝙蝠算法以二进制编码形式对预选特征进行优选,并以分类准确率作为个体的适应度。但当文本信息数据量大时,单机执行时间漫长,根据这一缺点,把蝙蝠算法和Spark并行计算框架相结合,提出了Spark处理框架下的文本特征选择算法SBATFS。将蝙蝠算法良好的寻优搜索能力和分布式高效的计算速度相结合,实现对文本特征选择优化模型的高效求解。

技术领域

本发明属于机器学习、数据挖掘、分布式计算等多个技术领域,涉及一种文本特征选择方法,具体涉及一种基于Spark分布式的蝙蝠优化算法的文本特征选择方法。

背景技术

随着Web技术的空前发展,随之产生的数据量高速增加,网络中相当一部分数据是以文本格式存在的,因此,如何高效的对这些海量文本数据进行分类展示,具有相当重要的意义和价值。

分类过程中,数据集往往包含大量的特征,但是并不是所有的特征对于分类都是有用的,所以删除不相关和冗余的属性特征不仅可以生成更简单,更准确的模型,而且减少的数据集使我们能够提高许多数据挖掘方案的性能。该特征子集可以最大限度地保存原始特征的信息,使得系统的特定指标最大化。在文本分类中选择词作为特征,训练语料库经分词后得到的不重复的词数往往上万,甚至上十万。如果不经过选择的这些词,全部用来表示文本的话,会导致维数过高,文本的向量表示会比较稀疏,其中很多无关和冗余的特征由于算法的复杂度过高,大数据量的情况下几乎无法计算。

特征子集选择(Feature subset selection FS)也叫特征选择。在保留原有数据信息的基础上,通过去除其中冗余或不相关的数据特征来降低特征维度及提高分类性能,是提高学习算法性能的一个重要手段,也是文本分类中关键的数据处理步骤。

蝙蝠算法(Bat Algorithm BA)是一种高效且稳定的基于种群的优化算法,其中由蝙蝠组成的群体可以移动到高维搜索空间。与其他元启发式算法相比,BA需要更少的计算时间并且可以快速收敛,在函数优化中具有良好的搜索能力,是文本分类领域中用于特征选择的有效算法。

卡方统计量(Chi-square statistic CHI),该方法的计算简单,表示直观,计算的结果也与实际情况比较相符,其缺陷在于并没有考虑每个词在每篇文章中的词频,所以CHI的含义就是“只要出现过”,这样的话就会夸大低频词的作用,因为在选择特征词时把低频词和高频词放在了同样的高度上,用此来衡量词项的重要性并不够全面,可能会忽略某些重要的词项,而且它也没有充分考虑词项的位置信息,不符合实际情况。

Spark是Apache推出的基于内存计算的大数据并行计算框架,适合构建大型的、实时的数据分析应用程序,提供了并行编程模型,用户只需调用相关的API即可完成分布式处理任务,为大数据的处理提供了有力的条件。

发明内容

为了解决上述技术问题,本发明提出了一种基于蝙蝠算法的文本特征选择方法,并且将该方法在Spark平台上并行化改进,通过这种方式来提高方法的分类性能和运行效率。

本发明所采用的技术方案是:一种采用并行二进制蝙蝠算法优化文本特征选择的方法,其特征在于,包括以下步骤:

步骤1:对文本数据预处理,转换成只有词条和空格大小写统一的字符串,然后利用分词系统进行分词,处理为文本向量,一部分作为训练集,一部分作为测试集;

步骤2:构造初始化特征,对于已经分好词的训练集通过CHI统计方法,按照CHI值降序取前D个词,作为初选特征集,并且将初选特征集,训练集和测试集上传到HDFS中;

步骤3:利用Spark分布式蝙蝠优化算法对初选文本特征进行迭代训练,直到结果满足收敛或最大迭代次数,得到最优特征集;

步骤4:输出训练后最优特征集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910265124.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top