[发明专利]一种深层网络数据源异常点的检测方法及系统有效
申请号: | 201410183963.X | 申请日: | 2014-05-04 |
公开(公告)号: | CN103927392B | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 赵朋朋;周徐;和天旭;吴健;崔志明 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种深层网络数据源异常点的检测方法及系统,该方法包括从深层网络数据源中采集多个初始样本,然后按照预设规则,对每个所述初始样本进行分层得到s层,分层后按照预设算法,确定每一层中包含异常点的概率,按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层的重采样次数,按照确定的重采样次数进行重采样,最后综合重采样数据与分层后的初始样本,进行异常点的检测。本申请的方法对有限的样本数据进行分层处理,由于异常点大部分集中在少数几个层中,通过着重对这几个层的重新采样,可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。 | ||
搜索关键词: | 一种 深层 网络 数据源 异常 检测 方法 系统 | ||
【主权项】:
一种深层网络数据源异常点的检测方法,其特征在于,包括:从深层网络数据源中采集多个初始样本;按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小;根据预设算法,确定每一层中包含异常点的概率;按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数;按照确定的各个层的重采样次数进行重采样;综合重采样数据与分层后的所述初始样本,进行异常点检测;所述按照预设规则,对每个所述初始样本进行分层得到s层,具体为:定义:IS={I1,I2,...,Is}代表输入属性集合,Ij的值域为{aj,1,aj,2,..a.j,m,}OS={O1,O2,...,Op}代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS‑SI;依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:SA=maxi∑j[Var(Oj)‑∑mVarm(Oj)×p(ai,m|Q)]其中Var(Oj)代表输出属性Oj的方差,其中xi代表第i个初始样本关于属性Oj的取值,代表输出属性Oj的平均取值,n是初始样本个数,Varm(Oj)代表输出属性Oj在第m层的方差,p(ai,m|Q)代表在查询空间Q下,第i个输入属性取值为ai,m的条件概率,可以通过下式来计算:p(ai,m|Q)=sel(Q,ai,m)sel(Q)]]>其中sel(Q)的作用是返回深层网络数据源中满足查询Q的数据的数目,sel(Q,ai,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为ai,m的数据的数目;所述根据预设算法,确定每一层中包含异常点的概率,具体为:使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分,评分区间为[0,1],评分越接近1,代表该样本越有可能成为异常点;按照预设的截断率对评分后的初始样本进行划分,将处于截断率以上的初始样本确定为异常点集合;计算每个层中包含异常点的概率:pi=miti]]>其中,ti代表的是初始样本中被划分到第i个层中的样本的个数,mi代表的是第i个层中包含的异常点的个数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410183963.X/,转载请声明来源钻瓜专利网。