[发明专利]一种采用并行二进制蝙蝠算法优化文本特征选择的方法有效

申请号：	201910265124.5	申请日：	2019-04-03
公开（公告）号：	CN110020435B	公开（公告）日：	2023-04-07
发明（设计）人：	陈宏伟;侯乔;胡周;韩麟;符恒;常鹏阳;徐慧;严灵毓;叶志伟;宗欣露	申请（专利权）人：	湖北工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/216;G06F40/289;G06N3/006
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	魏波
地址：	430068 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种采用并行二进制蝙蝠算法优化文本特征选择方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种采用并行二进制蝙蝠算法优化文本特征选择的方法，其特征在于，包括以下步骤：

步骤1：对文本数据预处理，转换成只有词条和空格，大小写统一的字符串，然后利用分词系统进行分词，处理为文本向量，一部分作为训练集，一部分作为测试集；

步骤2：构造初始化特征，对于已经分好词的训练集通过CHI统计方法，按照CHI值降序取前D个词，作为初选特征集，并且将初选特征集，训练集和测试集上传到HDFS中；

步骤3：利用Spark分布式蝙蝠优化算法对初选文本特征进行迭代训练，直到结果满足收敛或最大迭代次数，得到最优特征集；

步骤3的具体实现包括以下子步骤：

步骤3.1：初始化SparkContext，通过textFile()读取HDFS中的数据集；

步骤3.2：初始化蝙蝠种群；设置种群规模为N，最大迭代次数为Iter_max，根据CHI的值降序取前D个词，作为蝙蝠个体搜索位置的维度，也就是初选得到的特征数，初始化随机蝙蝠种群的位置向量X_i＝(X_i1，X_i2，…，X_iD)和速度V_i＝(V_i1，V_i2，…，V_iD)，编码种群，初始化频率范围为[f_min，f_max]，脉冲发射率r_i，响度A_i，每个蝙蝠的适应度值Fit[i]，根据适应度值的优劣，确定种群的第一代最优解X*；

步骤3.3：种群迭代，根据公式(1)对蝙蝠脉冲频率f_i，速度V_i^t，位置X_i^t进行更新；

其中X*是当前搜索全局的最优解，t是当前迭代次数，rand∈[0，1]的随机数；

其中，对每个蝙蝠位置进行二进制编码，限制其只能取0或1，速度向量不再反映个体位置的变化，而是表示每一维分量取值为0或1的概率，引入模糊数sigmoid：

蝙蝠位置的更新公式如下所示，

其中，X_idⁿ⁺¹表示当前某个蝙蝠个体位置，rand为[0，1]间的随机数；

每一只蝙蝠对应的位置代表一种特征选择规则，一只蝙蝠的每一维对应一个特征项，而每一个特征项对应着两种结果：被选中与不被选中，每个特征项被选中则取1，不被选中则取0，故每个蝙蝠的位置X_i看成是一个长度等于候选特征数的二进制串，表示为：

X_i＝{x_i1,x_i2,...,x_ij，...},x_ij∈{0,1}；

其中，X_i表示第i个解向量，X_ij表示第i个解向量的第j维分量，并且只可以取0或者1；若X_ij＝1说明第i个解向量中的第j个特征词被选中；若X_ij＝0，说明第i个解向量中的第j个特征词未被选中；

步骤3.4：对于每个蝙蝠个体，生成均匀分布随机数rand1，如果rand1r_i，则根据公式(2)对当前最优解进行随机扰动，产生一个新的局部解X_new；

X_new＝X_old+ε*A^t (2)

其中X_old为上一代种群的全局最优解，Xnew为通过随机游走方式生成局部新解，ε是[-1，1]之间的随机数，A^t＝(A_i^t)是在第t代时，所有蝙蝠的平均响度；

步骤3.5：将每个蝙蝠当前X_i^t或扰动后的X_new，每个维度的特征带入到分类算法中去计算分类的准确率，得到所有个体新位置适应度值Fit(X_new)；

步骤3.6：生成均匀分布随机数rand2，如果rand2A_i且Fit(X_new)Fit(X*)，则接受步骤3.4产生的新解，然后按公式(3)、(4)对响度A_i和发射率r_i，进行更新；

其中t为当前迭代次数，A_i^t和A_i^t+1分别表示蝙蝠i在第t代和t+1代的声波强度；0α1，是脉冲强度衰减系数；γ0，是脉冲频率增强系数，α、γ都为常数；r_i^t+1表示蝙蝠i在t+1代的脉冲强度，r_i⁰表示蝙蝠i初始脉冲频率，随着迭代次数增加，r_i^t→r_i⁰，A_i→0；

步骤3.7：对所有蝙蝠的适应度值进行排序，根据每个蝙蝠的适应度值的优劣，寻找当前新一代的最优解X*，广播X*的Fitness值；记录当前最优蝙蝠的位置及其适应度值，蝙蝠位置的每个维度对应的是不同的词语，具体的值表示该词语是否被选择；

步骤3.8：重复步骤3.3-步骤3.7，直至满足设定的最优解条件或者达到最大迭代次数，输出全局最优解，得到最优特征集C’；

步骤4：输出训练后最优特征集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖北工业大学，未经湖北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910265124.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种自然语言句法分析的方法
下一篇：一种本体和句法依存结合的微博情感分析法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种采用并行二进制蝙蝠算法优化文本特征选择的方法有效

专利文献下载