[发明专利]一种面向大数据中稀有类数据的快速查询技术在审

专利信息
申请号: 201710059000.2 申请日: 2017-01-23
公开(公告)号: CN107066515A 公开(公告)日: 2017-08-18
发明(设计)人: 李宗鹏;黄浩 申请(专利权)人: 武汉万般上品信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙)42222 代理人: 鲁力
地址: 430070 湖北省武汉市东湖新技术开发*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 数据 稀有 快速 查询 技术
【说明书】:

技术领域

发明属于数据挖掘领域,尤其涉及一种面向大数据中稀有类数据的快速查询技术。

背景技术

在现实世界里,大数据中经常包含一些数据样本较少但却具有重要价值的稀有类。例如在商业活动过程中,虽然绝大多数的交易行为都是合法的,但是其中仍然包括一些虚假信息的交易数据;在大量的网络访问的过程中,虽然绝大多数的网络请求都是合理的,但是不排除一些利用系统漏洞进行网络攻击的行为。在实际应用中,这些稀有类数据样本常常被偶然发现或者是通过一些稀有类检测技术所侦察到,当发现了少量的稀有类样本后,随之产生的问题是如何利用这些少量的稀有类数据样本对数据集中的稀有类数据进行快速查询。

对于稀有类的查询,虽然有稀有类分类和稀有类聚类等相关的技术可以找出所有的稀有类数据,但是稀有类分类技术需要大量已知的稀有类数据作为训练集来进行分类器的训练,而实际生活中这些数据是难以获取的,稀有类聚类技术虽然不需要训练数据,但是在聚类过程中没有利用一些已知的有价值稀有类数据信息,可能造成结果的不准确。因而如何利用仅有的少量稀有类数据找到所有稀有类数据是一个重要且极具挑战的问题。

发明内容

为了解决上述技术问题,本发明提供了一种面向大数据中稀有类数据的快速查询技术。首先通过已知的一个稀有类样本点和一个较小的k近邻值来找到一个小范围的稀有类区域,然后根据这个小范围区域计算出新的k值和距离阈值,再根据新的k和距离阈值来继续寻找新的稀有类数据点。

本发明所采用的技术方案是:

一种面向大数据中稀有类数据的快速查询技术,其特征在于,包括以下步骤:

步骤1:对于给定的数据集为D,首先将D中的每个点标记为未知点。使用集合N记录用来寻找稀有类的数据集合,初始时N中仅包含一个已知的稀有类数据点n0,即N={n0}。设置k为较小的值k0,设置距离阈值τd为一个正数,该正数大于数据集D中任意两点之间的最大欧式距离;步骤2:对于N中的每个点ni,在D中找到与ni最近的k个点(称为ni的k近邻),记为Knn(ni),将N中所有点的k近邻组成集合Knn(N),然后在D中找到Knn(N)中每个点的k近邻,将Knn(N)中所有点的k近邻组成集合Knn(Knn(N)),将N中的点标为已知点,并对N中每个点ni对应的Knn(ni)中的点进行筛选,直至筛选的次数达到设定的阈值τi

步骤3:根据筛选后的Knn(N)结果进行选择:

选择步骤一:若筛选后的Knn(N)中的点包含未知点,则更新N中每个点的坐标,并记录下该点已更新的次数,若更新次数超过给定阈值τt,则该点的坐标不再更新,初始化一个空集合N’,将更新后得到的新坐标点加入集合N’,并更新N=Knn(N)∪N',然后返回步骤2;N中点的坐标更新规则为:

其中,(ni)old表示点ni的原始坐标;(ni)new表示更新后的坐标;nij表示点ni的k近邻Knn(ni)中的第j个点;Knnj(ni)表示点nij的坐标;d(nij,ni)表示点ni和点nij之间的欧式距离;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉万般上品信息技术有限公司,未经武汉万般上品信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710059000.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top