[发明专利]一种面向大数据中稀有类数据的快速查询技术在审
申请号: | 201710059000.2 | 申请日: | 2017-01-23 |
公开(公告)号: | CN107066515A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 李宗鹏;黄浩 | 申请(专利权)人: | 武汉万般上品信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 鲁力 |
地址: | 430070 湖北省武汉市东湖新技术开发*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 稀有 快速 查询 技术 | ||
技术领域
本发明属于数据挖掘领域,尤其涉及一种面向大数据中稀有类数据的快速查询技术。
背景技术
在现实世界里,大数据中经常包含一些数据样本较少但却具有重要价值的稀有类。例如在商业活动过程中,虽然绝大多数的交易行为都是合法的,但是其中仍然包括一些虚假信息的交易数据;在大量的网络访问的过程中,虽然绝大多数的网络请求都是合理的,但是不排除一些利用系统漏洞进行网络攻击的行为。在实际应用中,这些稀有类数据样本常常被偶然发现或者是通过一些稀有类检测技术所侦察到,当发现了少量的稀有类样本后,随之产生的问题是如何利用这些少量的稀有类数据样本对数据集中的稀有类数据进行快速查询。
对于稀有类的查询,虽然有稀有类分类和稀有类聚类等相关的技术可以找出所有的稀有类数据,但是稀有类分类技术需要大量已知的稀有类数据作为训练集来进行分类器的训练,而实际生活中这些数据是难以获取的,稀有类聚类技术虽然不需要训练数据,但是在聚类过程中没有利用一些已知的有价值稀有类数据信息,可能造成结果的不准确。因而如何利用仅有的少量稀有类数据找到所有稀有类数据是一个重要且极具挑战的问题。
发明内容
为了解决上述技术问题,本发明提供了一种面向大数据中稀有类数据的快速查询技术。首先通过已知的一个稀有类样本点和一个较小的k近邻值来找到一个小范围的稀有类区域,然后根据这个小范围区域计算出新的k值和距离阈值,再根据新的k和距离阈值来继续寻找新的稀有类数据点。
本发明所采用的技术方案是:
一种面向大数据中稀有类数据的快速查询技术,其特征在于,包括以下步骤:
步骤1:对于给定的数据集为D,首先将D中的每个点标记为未知点。使用集合N记录用来寻找稀有类的数据集合,初始时N中仅包含一个已知的稀有类数据点n0,即N={n0}。设置k为较小的值k0,设置距离阈值τd为一个正数,该正数大于数据集D中任意两点之间的最大欧式距离;步骤2:对于N中的每个点ni,在D中找到与ni最近的k个点(称为ni的k近邻),记为Knn(ni),将N中所有点的k近邻组成集合Knn(N),然后在D中找到Knn(N)中每个点的k近邻,将Knn(N)中所有点的k近邻组成集合Knn(Knn(N)),将N中的点标为已知点,并对N中每个点ni对应的Knn(ni)中的点进行筛选,直至筛选的次数达到设定的阈值τi;
步骤3:根据筛选后的Knn(N)结果进行选择:
选择步骤一:若筛选后的Knn(N)中的点包含未知点,则更新N中每个点的坐标,并记录下该点已更新的次数,若更新次数超过给定阈值τt,则该点的坐标不再更新,初始化一个空集合N’,将更新后得到的新坐标点加入集合N’,并更新N=Knn(N)∪N',然后返回步骤2;N中点的坐标更新规则为:
其中,(ni)old表示点ni的原始坐标;(ni)new表示更新后的坐标;nij表示点ni的k近邻Knn(ni)中的第j个点;Knnj(ni)表示点nij的坐标;d(nij,ni)表示点ni和点nij之间的欧式距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉万般上品信息技术有限公司,未经武汉万般上品信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710059000.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:老年人的情绪识别方法和系统
- 下一篇:药品信息的可视化展示方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置