[发明专利]一种采用并行二进制蝙蝠算法优化文本特征选择的方法有效
申请号: | 201910265124.5 | 申请日: | 2019-04-03 |
公开(公告)号: | CN110020435B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 陈宏伟;侯乔;胡周;韩麟;符恒;常鹏阳;徐慧;严灵毓;叶志伟;宗欣露 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06N3/006 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430068 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 并行 二进制 蝙蝠 算法 优化 文本 特征 选择 方法 | ||
1.一种采用并行二进制蝙蝠算法优化文本特征选择的方法,其特征在于,包括以下步骤:
步骤1:对文本数据预处理,转换成只有词条和空格,大小写统一的字符串,然后利用分词系统进行分词,处理为文本向量,一部分作为训练集,一部分作为测试集;
步骤2:构造初始化特征,对于已经分好词的训练集通过CHI统计方法,按照CHI值降序取前D个词,作为初选特征集,并且将初选特征集,训练集和测试集上传到HDFS中;
步骤3:利用Spark分布式蝙蝠优化算法对初选文本特征进行迭代训练,直到结果满足收敛或最大迭代次数,得到最优特征集;
步骤3的具体实现包括以下子步骤:
步骤3.1:初始化SparkContext,通过textFile()读取HDFS中的数据集;
步骤3.2:初始化蝙蝠种群;设置种群规模为N,最大迭代次数为Itermax,根据CHI的值降序取前D个词,作为蝙蝠个体搜索位置的维度,也就是初选得到的特征数,初始化随机蝙蝠种群的位置向量Xi=(Xi1,Xi2,…,XiD)和速度Vi=(Vi1,Vi2,…,ViD),编码种群,初始化频率范围为[fmin,fmax],脉冲发射率ri,响度Ai,每个蝙蝠的适应度值Fit[i],根据适应度值的优劣,确定种群的第一代最优解X*;
步骤3.3:种群迭代,根据公式(1)对蝙蝠脉冲频率fi,速度Vit,位置Xit进行更新;
其中X*是当前搜索全局的最优解,t是当前迭代次数,rand∈[0,1]的随机数;
其中,对每个蝙蝠位置进行二进制编码,限制其只能取0或1,速度向量不再反映个体位置的变化,而是表示每一维分量取值为0或1的概率,引入模糊数sigmoid:
蝙蝠位置的更新公式如下所示,
其中,Xidn+1表示当前某个蝙蝠个体位置,rand为[0,1]间的随机数;
每一只蝙蝠对应的位置代表一种特征选择规则,一只蝙蝠的每一维对应一个特征项,而每一个特征项对应着两种结果:被选中与不被选中,每个特征项被选中则取1,不被选中则取0,故每个蝙蝠的位置Xi看成是一个长度等于候选特征数的二进制串,表示为:
Xi={xi1,xi2,...,xij,...},xij∈{0,1};
其中,Xi表示第i个解向量,Xij表示第i个解向量的第j维分量,并且只可以取0或者1;若Xij=1说明第i个解向量中的第j个特征词被选中;若Xij=0,说明第i个解向量中的第j个特征词未被选中;
步骤3.4:对于每个蝙蝠个体,生成均匀分布随机数rand1,如果rand1ri,则根据公式(2)对当前最优解进行随机扰动,产生一个新的局部解Xnew;
Xnew=Xold+ε*At (2)
其中Xold为上一代种群的全局最优解,Xnew为通过随机游走方式生成局部新解,ε是[-1,1]之间的随机数,At=(Ait)是在第t代时,所有蝙蝠的平均响度;
步骤3.5:将每个蝙蝠当前Xit或扰动后的Xnew,每个维度的特征带入到分类算法中去计算分类的准确率,得到所有个体新位置适应度值Fit(Xnew);
步骤3.6:生成均匀分布随机数rand2,如果rand2Ai且Fit(Xnew)Fit(X*),则接受步骤3.4产生的新解,然后按公式(3)、(4)对响度Ai和发射率ri,进行更新;
其中t为当前迭代次数,Ait和Ait+1分别表示蝙蝠i在第t代和t+1代的声波强度;0α1,是脉冲强度衰减系数;γ0,是脉冲频率增强系数,α、γ都为常数;rit+1表示蝙蝠i在t+1代的脉冲强度,ri0表示蝙蝠i初始脉冲频率,随着迭代次数增加,rit→ri0,Ai→0;
步骤3.7:对所有蝙蝠的适应度值进行排序,根据每个蝙蝠的适应度值的优劣,寻找当前新一代的最优解X*,广播X*的Fitness值;记录当前最优蝙蝠的位置及其适应度值,蝙蝠位置的每个维度对应的是不同的词语,具体的值表示该词语是否被选择;
步骤3.8:重复步骤3.3-步骤3.7,直至满足设定的最优解条件或者达到最大迭代次数,输出全局最优解,得到最优特征集C’;
步骤4:输出训练后最优特征集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910265124.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自然语言句法分析的方法
- 下一篇:一种本体和句法依存结合的微博情感分析法