[发明专利]基于萤火虫和加权极限学习机的微博异常用户检测方法有效
申请号: | 201811573286.7 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109657147B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 张志洁 | 申请(专利权)人: | 岭南师范学院 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N20/00;G06N3/00 |
代理公司: | 广州市南锋专利事务所有限公司 44228 | 代理人: | 李慧;王允辉 |
地址: | 524000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 萤火虫 加权 极限 学习机 异常 用户 检测 方法 | ||
1.一种基于萤火虫和加权极限学习机的微博异常用户检测方法,其特征在于,包括以下步骤:
步骤一:数据采集并分类:采集微博用户数据,并对数据进行清洗,筛选出与微博内容、用户信息、用户上下文有关的数据特征,对微博异常和非异常用户进行标记,将采集到的微博用户数据分为训练集和测试集;
步骤二:创建加权极限学习机:利用萤火虫算法创建加权极限学习机;
步骤三:优化加权极限学习机:加权极限学习机利用训练集中的数据进行学习,对输入权值和阈值进行调整,直到达到预计误差值时停止对加权极限学习机的训练,形成优化的加权极限学习机;
步骤四:检测或预测微博异常用户:将测试集中的微博用户特征,即微博内容、用户信息和用户上下文,作为优化的加权极限学习机的输入数据样本,优化的加权极限学习机的输出值为该用户是否为微博异常用户;
所述步骤二中,加权极限学习机的数学模型如下:
其中,xp为输入样本,它为微博用户特征,βj=[βj1,...,βjm]T为输出权重,si,0<si≤1是模糊权值,wj=[wj1,...,wjn]T为输入权重,bj=[bj1,...,bjn]T为隐含层阈值,G(wj,bj,xp)为高斯激活函数,f(x)为输出值,它为微博异常/正常用户;
所述步骤二中,创建加权极限学习机的具体方法如下:
步骤1:将训练集中的微博用户特征,即微博内容、用户信息和用户上下文等作为加权极限学习机的输入数据样本xp,是否是异常用户作为加权极限学习机的输出值f(x)=0或f(x)=1;然后,确定加权极限学习机的拓扑结构,随机初始化加权极限学习机的权值和阈值,其中,设输入的每个数据样本的模糊权值si,加权学习机网络输入权重wj和隐含层阈值bj;
步骤2:利用萤火虫算法对加权极限学习机的网络输入权重和隐含层阈值进行编码,具体编码方法为:xi(t)表示第t代第i个萤火虫的位置,由加权极限学习机的输入权重wj和隐含层阈值bj组成,xi(t)=[w11,...,w1n,...,wk1,wk2,...,wkn,b1,...,bk];
步骤3:设置迭代次数t=1,计算萤火虫的适应度函数值F,F由加权极限学习机的期望输出和预测输出之间的误差绝对值之和求得,得到的公式(1)如下:
其中,n为加权极限学习机的输出层节点数,yj为加权极限学习机第j个节点的期望输出,oj为第j个节点的预测输出,k为系数;
步骤4:更新萤火虫的荧光素,对种群中的每个萤火虫i由公式(1)计算在第t代、位置xi(t)的适应度值,由公式(2)将适应度函数值转换为荧光素值:公式(2)为:
li(t)=(1-ρ)li(t-1)+γJ(xi(t))
其中,J(xi(t))表示第t代第i个萤火虫所在位置的适应度函数值,li(t)表示第t代第i个萤火虫的荧光素值,xi(t)表示第t代第i个萤火虫的位置;
步骤5:寻找萤火虫的邻居,所用的公式(3)为:
其中,Ni(t)表示第t代第i个萤火虫的邻居集合,||x||表示x的范数,xj(t)为第t代第j个萤火虫的位置,lj(t)第t代第j个萤火虫的荧光素值;动态决策域范围决定了邻居的个数,其上界为感知范围rs,
步骤6:确定萤火虫移动方向,当邻居萤火虫j的荧光素值比萤火虫i大,且两只萤火虫之间的距离在感知范围rs之内时,萤火虫i将以一定的概率pij(t)选择邻居萤火虫j,并向邻居萤火虫j的方向移动,确定萤火虫移动方向所用的公式(4)为:
步骤7:利用公式(5)萤火虫位置更新,公式(5)为:
其中,S为自适应步长;
步骤8:决策域更新:当邻域中萤火虫数量较少时,通过增加决策域半径,萤火虫能找到更多的同伴;当邻域中萤火虫数量较多时,则需要减少决策域半径,决策域更新的公式(6)为:
在公式(6)中,|Ni(t)|表示萤火虫i邻域内萤火虫个数;
步骤9:当达到设定的迭代次数时,停止运算,输出萤火虫最优位置,因萤火虫的位置是由加权学习机网络输入权重wj和隐含层阈值bj组成,即获得了最优化的加权学习机网络输入权重和隐含层阈值;否则,返回到步骤3继续进行计算;
步骤10:将优化后的输入权重和隐含层阈值输入到加权极限学习机中,并使用公式(7)计算加权极限学习机算法的输出函数值,完成加权极限学习机的网络构建,公式(7)如下:
在公式(7)中,xp为输入样本,它为微博用户特征,βj=[βj1,...,βjm]T为输出权重,si,0<si≤1是模糊权值,wj=[wj1,...,wjn]T为输入权重,bj=[bj1,...,bjn]T为隐含层阈值,G(wj,bj,xp)为高斯激活函数,f(x)为输出值,它为微博异常/正常用户;
在步骤7中,将采用公式(5a)和(5b)来计算公式(5)中的自适应步长S的值,使得在算法迭代的过程中,避免陷入局部最优值,促进算法快速收敛,获取精确的优化结果;
在公式(5a)和(5b)中,t表示当前迭代次数,Tmax表示最大迭代次数,Smin为最小步长,Smax为最大步长,p取值范围为(0,2]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于岭南师范学院,未经岭南师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811573286.7/1.html,转载请声明来源钻瓜专利网。