[发明专利]一种采用并行二进制蝙蝠算法优化文本特征选择的方法有效

专利信息
申请号: 201910265124.5 申请日: 2019-04-03
公开(公告)号: CN110020435B 公开(公告)日: 2023-04-07
发明(设计)人: 陈宏伟;侯乔;胡周;韩麟;符恒;常鹏阳;徐慧;严灵毓;叶志伟;宗欣露 申请(专利权)人: 湖北工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/289;G06N3/006
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 魏波
地址: 430068 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 采用 并行 二进制 蝙蝠 算法 优化 文本 特征 选择 方法
【权利要求书】:

1.一种采用并行二进制蝙蝠算法优化文本特征选择的方法,其特征在于,包括以下步骤:

步骤1:对文本数据预处理,转换成只有词条和空格,大小写统一的字符串,然后利用分词系统进行分词,处理为文本向量,一部分作为训练集,一部分作为测试集;

步骤2:构造初始化特征,对于已经分好词的训练集通过CHI统计方法,按照CHI值降序取前D个词,作为初选特征集,并且将初选特征集,训练集和测试集上传到HDFS中;

步骤3:利用Spark分布式蝙蝠优化算法对初选文本特征进行迭代训练,直到结果满足收敛或最大迭代次数,得到最优特征集;

步骤3的具体实现包括以下子步骤:

步骤3.1:初始化SparkContext,通过textFile()读取HDFS中的数据集;

步骤3.2:初始化蝙蝠种群;设置种群规模为N,最大迭代次数为Itermax,根据CHI的值降序取前D个词,作为蝙蝠个体搜索位置的维度,也就是初选得到的特征数,初始化随机蝙蝠种群的位置向量Xi=(Xi1,Xi2,…,XiD)和速度Vi=(Vi1,Vi2,…,ViD),编码种群,初始化频率范围为[fmin,fmax],脉冲发射率ri,响度Ai,每个蝙蝠的适应度值Fit[i],根据适应度值的优劣,确定种群的第一代最优解X*;

步骤3.3:种群迭代,根据公式(1)对蝙蝠脉冲频率fi,速度Vit,位置Xit进行更新;

其中X*是当前搜索全局的最优解,t是当前迭代次数,rand∈[0,1]的随机数;

其中,对每个蝙蝠位置进行二进制编码,限制其只能取0或1,速度向量不再反映个体位置的变化,而是表示每一维分量取值为0或1的概率,引入模糊数sigmoid:

蝙蝠位置的更新公式如下所示,

其中,Xidn+1表示当前某个蝙蝠个体位置,rand为[0,1]间的随机数;

每一只蝙蝠对应的位置代表一种特征选择规则,一只蝙蝠的每一维对应一个特征项,而每一个特征项对应着两种结果:被选中与不被选中,每个特征项被选中则取1,不被选中则取0,故每个蝙蝠的位置Xi看成是一个长度等于候选特征数的二进制串,表示为:

Xi={xi1,xi2,...,xij,...},xij∈{0,1};

其中,Xi表示第i个解向量,Xij表示第i个解向量的第j维分量,并且只可以取0或者1;若Xij=1说明第i个解向量中的第j个特征词被选中;若Xij=0,说明第i个解向量中的第j个特征词未被选中;

步骤3.4:对于每个蝙蝠个体,生成均匀分布随机数rand1,如果rand1ri,则根据公式(2)对当前最优解进行随机扰动,产生一个新的局部解Xnew

Xnew=Xold+ε*At    (2)

其中Xold为上一代种群的全局最优解,Xnew为通过随机游走方式生成局部新解,ε是[-1,1]之间的随机数,At=(Ait)是在第t代时,所有蝙蝠的平均响度;

步骤3.5:将每个蝙蝠当前Xit或扰动后的Xnew,每个维度的特征带入到分类算法中去计算分类的准确率,得到所有个体新位置适应度值Fit(Xnew);

步骤3.6:生成均匀分布随机数rand2,如果rand2Ai且Fit(Xnew)Fit(X*),则接受步骤3.4产生的新解,然后按公式(3)、(4)对响度Ai和发射率ri,进行更新;

其中t为当前迭代次数,Ait和Ait+1分别表示蝙蝠i在第t代和t+1代的声波强度;0α1,是脉冲强度衰减系数;γ0,是脉冲频率增强系数,α、γ都为常数;rit+1表示蝙蝠i在t+1代的脉冲强度,ri0表示蝙蝠i初始脉冲频率,随着迭代次数增加,rit→ri0,Ai→0;

步骤3.7:对所有蝙蝠的适应度值进行排序,根据每个蝙蝠的适应度值的优劣,寻找当前新一代的最优解X*,广播X*的Fitness值;记录当前最优蝙蝠的位置及其适应度值,蝙蝠位置的每个维度对应的是不同的词语,具体的值表示该词语是否被选择;

步骤3.8:重复步骤3.3-步骤3.7,直至满足设定的最优解条件或者达到最大迭代次数,输出全局最优解,得到最优特征集C’;

步骤4:输出训练后最优特征集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910265124.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top