[发明专利]一种深层网络数据源异常点的检测方法及系统有效

专利信息
申请号: 201410183963.X 申请日: 2014-05-04
公开(公告)号: CN103927392B 公开(公告)日: 2017-03-22
发明(设计)人: 赵朋朋;周徐;和天旭;吴健;崔志明 申请(专利权)人: 苏州大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司11227 代理人: 常亮
地址: 215123 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 深层 网络 数据源 异常 检测 方法 系统
【说明书】:

技术领域

本申请涉及服务计算技术领域,更具体地说,涉及一种深层网络数据源异常点的检测方法及系统。

背景技术

深层网络Deep Web是指那些网络爬虫很难找到的站点,相对于浅层网络Surface Web而言,深层网络中的数据是无法直接全部获得的,必须通过查询接口提交查询来获取相应的数据。而异常点是指不服从正常的数据分布或表现的数据模式。例如,信贷事务中的异常点极有可能是一项预谋的欺诈事务;网络通信中异常的通信模式可能代表我们的电脑正在受到黑客攻击。因此,异常点检测具有重大的现实意义。

但是,现有的异常点检测方法大多是针对浅层网络的。由于深层网络不同于浅层网络,其数据无法直接全部获得,因此,现有的检测方法无法适用到深层网络之中。

发明内容

有鉴于此,本申请提供了一种深层网络数据源异常点的检测方法及系统,用于对深层网络数据源的异常点进行有效的检测。

为了实现上述目的,现提出的方案如下:

一种深层网络数据源异常点的检测方法,包括:

从深层网络数据源中采集多个初始样本;

按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小;

根据预设算法,确定每一层中包含异常点的概率;

按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数;

按照确定的各个层的重采样次数进行重采样;

综合重采样数据与分层后的所述初始样本,进行异常点检测。

优选地,所述按照预设规则,对每个所述初始样本进行分层得到s层,具体为:

定义:IS={I1,I2,...,Is}代表输入属性集合,Ij的值域为{aj,1,aj,2,...aj,m},OS={O1,O2,...,Op}代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS-SI;

依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:

SA=maxij[Var(Oj)-∑mVarm(Oj)×p(ai,m|Q)]

其中Var(Oj)代表输出属性Oj的方差,其中xi代表第i个初始样本关于属性Oj的取值,代表输出属性Oj的平均取值,n是初始样本个数,Varm(Oj)代表输出属性Oj在第m层的方差,p(ai,m|Q)代表在查询空间Q下,第i个输入属性取值为ai,m的条件概率,可以通过下式来计算:

p(ai,m|Q)=sel(Q,ai,m)sel(Q)]]>

其中sel(Q)的作用是返回深层网络数据源中满足查询Q的数据的数目,sel(Q,ai,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为ai,m的数据的数目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410183963.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top