[发明专利]一种基于近邻传播聚类算法的多步异常点检测方法有效
申请号: | 201910452071.8 | 申请日: | 2019-05-28 |
公开(公告)号: | CN110162975B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 朱会娟;冯霞;王良民;黎洋;顾伟;曹晓雯;房浩 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
代理公司: | 南京华恒专利代理事务所(普通合伙) 32335 | 代理人: | 宋方园 |
地址: | 212000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 近邻 传播 算法 异常 检测 方法 | ||
1.一种基于近邻传播聚类算法的多步异常点检测方法,其特征在于:包括以下步骤:
步骤1、从Android官方网站Google Play获取正常Android应用程序,并从病毒数据样本库中获取恶意应用程序,构建应用程序样本集,应用程序样本集中含正常样本和恶意样本,并将应用程序样本集划分为训练集和测试集;
步骤2、使用FLOWDROID工具提取样本集中的数据流,从而构造数据流频率的高维数据集X=(x1,x2,...,xn)∈Rm×n,m是指统计出来的数据流个数,即数据集的原始特征维度,n表示样本集中样本的数量;
步骤3、以数据流为特征构建特征向量,将每个样本应用程序中调用对应数据流特征的频率作为特征值,若该样本应用程序没有调用某个数据流的对应特征值则标记为0;
步骤4、采用EsttSNE降维技术对步骤2构造的高维数据集进行降维;
步骤5、划分应用程序样本入13个涉及到用户敏感信息的子类;子类的划分依据SUSI标准;
步骤6、对于每一个子类中取部分正常应用程序采用近临传播算法AP进行聚类,即将应用程序划分为不同的主题来挖掘该类主题的正常模式,并计算该类主题的参考点;
步骤7、采用NPOD方法计算候选样本集的异常得分,即依据步骤6计算到的13组参考点集合计算候选应用程序在这13个子类中的异常得分,如果App没有划分入对应的子类则其异常得分标记为0,最后构建异常得分向量;
步骤8、采用预先划分好的训练集训练One-Class SVM分类器模型;
步骤9、采用预先划分好的测试集,然后通过步骤8训练出的One-Class SVM分类器来对Android应用程序是否为恶意软件进行预测。
2.根据权利要求1所述的基于近邻传播聚类算法的多步异常点检测方法,其特征在于:步骤4中对高维数据集进行降维的详细过程为:
通过EsttSNE降维方法构建高维对象之间的概率分布P以及在低维空间里构建这些点的概率分布Q,然后通过最小化目标KL散度获取其最优低维表示,即:
pij表示样本xi和xj在高维空间X中的相似度,δi表示高斯分布的方差;xi和xj是高维空间X中的样本;
qij表示样本yi和yj在低维空间Y=[y1,y2,...,yn]∈Rd×n中的相似度,d为降维后的数据,qij=((1+||yi-yj||2)K)-1,yi和yj是低维空间中的样本。
3.根据权利要求1所述的基于近邻传播聚类算法的多步异常点检测方法,其特征在于:步骤6中参考点计算方法的具体步骤为:
(6.1)采用负欧氏距离s(i,j)=-||xi-xj||2计算正常样本集s中两两样本之间的相似度矩阵N,将参考度p设置为s的中值;
(6.2)分别初始化归属度值AN×N和吸引度矩阵RN×N为0;
(6.3)通过规则更新吸引度矩阵,通过规则更新归属度矩阵,
其中,吸引度r(i,j)表示数据点j适合作为数据点i的类代表的吸引程度,归属度a(i,j)表示数据点i选择点j作为它的类代表的归属程度;
如果迭代次数超过设定的最大值或者当聚类中心在若干次迭代中不发生改变时,则停止计算则确定类中心及各类的样本点,否则继续迭代更新吸引度r(i,j)和归属度a(i,j);
(6.4)设每一个聚类中心为参考点其中k是自动确定的聚类个数,h为聚类中心的总数量。
4.根据权利要求3所述的基于近邻传播聚类算法的多步异常点检测方法,其特征在于:步骤7中采用NPOD计算异常得分的方法为:
(7.1)遍历需要计算异常得分的候选样本集Xc;
(7.2)通过式子计算获得参考集Cref(xc),其中代表(6.4)中的参考点;
(7.3)通过式子OutScr(xc)=(locDist(xc)+gloDist(xc))/2计算候选样本xc的异常得分Outscrg(xc),
其中locDist(xc)=[lo/(l-2)]×[o(xc)/l],l是参考集的元素数个数,
gloDist(xc)=gl/(k-2),k为(6.4)中计算的参考点的个数,
为参考集中的元素,
(7.4)遍历13个涉及用户敏感信息的13个子类构造异常得分向量OutscrVector(x)←{Outscr1(x),...,OutscrcatNum(x)}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910452071.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库攻击防御方法及系统
- 下一篇:风险评估方法、装置及终端