[发明专利]基于萤火虫和加权极限学习机的微博异常用户检测方法有效

申请号：	201811573286.7	申请日：	2018-12-21
公开（公告）号：	CN109657147B	公开（公告）日：	2022-11-11
发明（设计）人：	张志洁	申请（专利权）人：	岭南师范学院
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06N20/00;G06N3/00
代理公司：	广州市南锋专利事务所有限公司 44228	代理人：	李慧;王允辉
地址：	524000 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于萤火虫加权极限学习机异常用户检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于萤火虫和加权极限学习机的微博异常用户检测方法，其特征在于，包括以下步骤：

步骤一：数据采集并分类：采集微博用户数据，并对数据进行清洗，筛选出与微博内容、用户信息、用户上下文有关的数据特征，对微博异常和非异常用户进行标记，将采集到的微博用户数据分为训练集和测试集；

步骤二：创建加权极限学习机：利用萤火虫算法创建加权极限学习机；

步骤三：优化加权极限学习机：加权极限学习机利用训练集中的数据进行学习，对输入权值和阈值进行调整，直到达到预计误差值时停止对加权极限学习机的训练，形成优化的加权极限学习机；

步骤四：检测或预测微博异常用户：将测试集中的微博用户特征，即微博内容、用户信息和用户上下文，作为优化的加权极限学习机的输入数据样本，优化的加权极限学习机的输出值为该用户是否为微博异常用户；

所述步骤二中，加权极限学习机的数学模型如下：

其中，x_p为输入样本，它为微博用户特征，β_j＝[β_j1，...，β_jm]^T为输出权重，s_i，0＜s_i≤1是模糊权值，w_j＝[w_j1，...，w_jn]^T为输入权重，b_j＝[b_j1，...，b_jn]^T为隐含层阈值，G(w_j，b_j，x_p)为高斯激活函数，f(x)为输出值，它为微博异常/正常用户；

所述步骤二中，创建加权极限学习机的具体方法如下：

步骤1：将训练集中的微博用户特征，即微博内容、用户信息和用户上下文等作为加权极限学习机的输入数据样本x_p，是否是异常用户作为加权极限学习机的输出值f(x)＝0或f(x)＝1；然后，确定加权极限学习机的拓扑结构，随机初始化加权极限学习机的权值和阈值，其中，设输入的每个数据样本的模糊权值s_i，加权学习机网络输入权重w_j和隐含层阈值b_j；

步骤2：利用萤火虫算法对加权极限学习机的网络输入权重和隐含层阈值进行编码，具体编码方法为：x_i(t)表示第t代第i个萤火虫的位置，由加权极限学习机的输入权重w_j和隐含层阈值b_j组成，x_i(t)＝[w₁₁，...，w_1n，...，w_k1，w_k2，...，w_kn，b₁，...，b_k]；

步骤3：设置迭代次数t＝1，计算萤火虫的适应度函数值F，F由加权极限学习机的期望输出和预测输出之间的误差绝对值之和求得，得到的公式(1)如下：

其中，n为加权极限学习机的输出层节点数，y_j为加权极限学习机第j个节点的期望输出，o_j为第j个节点的预测输出，k为系数；

步骤4：更新萤火虫的荧光素，对种群中的每个萤火虫i由公式(1)计算在第t代、位置x_i(t)的适应度值，由公式(2)将适应度函数值转换为荧光素值：公式(2)为：

l_i(t)＝(1-ρ)l_i(t-1)+γJ(x_i(t))

其中，J(x_i(t))表示第t代第i个萤火虫所在位置的适应度函数值，l_i(t)表示第t代第i个萤火虫的荧光素值，x_i(t)表示第t代第i个萤火虫的位置；

步骤5：寻找萤火虫的邻居，所用的公式(3)为：

其中，N_i(t)表示第t代第i个萤火虫的邻居集合，||x||表示x的范数，x_j(t)为第t代第j个萤火虫的位置，l_j(t)第t代第j个萤火虫的荧光素值；动态决策域范围决定了邻居的个数，其上界为感知范围r_s，

步骤6：确定萤火虫移动方向，当邻居萤火虫j的荧光素值比萤火虫i大，且两只萤火虫之间的距离在感知范围r_s之内时，萤火虫i将以一定的概率p_ij(t)选择邻居萤火虫j，并向邻居萤火虫j的方向移动，确定萤火虫移动方向所用的公式(4)为：

步骤7：利用公式(5)萤火虫位置更新，公式(5)为：

其中，S为自适应步长；

步骤8：决策域更新：当邻域中萤火虫数量较少时，通过增加决策域半径，萤火虫能找到更多的同伴；当邻域中萤火虫数量较多时，则需要减少决策域半径，决策域更新的公式(6)为：

在公式(6)中，|N_i(t)|表示萤火虫i邻域内萤火虫个数；

步骤9：当达到设定的迭代次数时，停止运算，输出萤火虫最优位置，因萤火虫的位置是由加权学习机网络输入权重w_j和隐含层阈值b_j组成，即获得了最优化的加权学习机网络输入权重和隐含层阈值；否则，返回到步骤3继续进行计算；

步骤10：将优化后的输入权重和隐含层阈值输入到加权极限学习机中，并使用公式(7)计算加权极限学习机算法的输出函数值，完成加权极限学习机的网络构建，公式(7)如下：

在公式(7)中，x_p为输入样本，它为微博用户特征，β_j＝[β_j1，...，β_jm]^T为输出权重，s_i，0＜s_i≤1是模糊权值，w_j＝[w_j1，...，w_jn]^T为输入权重，b_j＝[b_j1，...，b_jn]^T为隐含层阈值，G(w_j，b_j，x_p)为高斯激活函数，f(x)为输出值，它为微博异常/正常用户；

在步骤7中，将采用公式(5a)和(5b)来计算公式(5)中的自适应步长S的值，使得在算法迭代的过程中，避免陷入局部最优值，促进算法快速收敛，获取精确的优化结果；

在公式(5a)和(5b)中，t表示当前迭代次数，T_max表示最大迭代次数，S_min为最小步长，S_max为最大步长，p取值范围为(0，2]。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于岭南师范学院，未经岭南师范学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811573286.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于萤火虫和加权极限学习机的微博异常用户检测方法有效

专利文献下载