[发明专利]一种应用哈希Hash划分桶快速获得邻域的方法有效
申请号: | 201310261081.6 | 申请日: | 2013-06-26 |
公开(公告)号: | CN103345491B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 蒋云良;曾志勇;刘勇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 浙江杭州金通专利事务所有限公司 33100 | 代理人: | 刘晓春 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用 hash 划分 快速 获得 邻域 方法 | ||
技术领域
本发明属于信息处理领域,尤其涉及一种以二范数距离为度量,采用哈希(Hash)划分桶缩小邻域信息粒子搜索空间的快速获得邻域的方法。
背景技术
随着信息技术的迅速发展以及数据库管理系统的广泛应用,人们记录的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
T.Y.Lin于1988年提出了邻域模型的概念,他通过使用空间邻域实现对论域的粒化,并将空间邻域理解为基本的信息粒子,而后利用这些基本信息粒子来描述论域中的其他概念。在1998年,姚一豫教授以及在2002年吴伟志教授对邻域算子和邻域系统的基本系统性质分别进行了深入的研究。Yao讨论了粒计算与粗糙集、商空间等数据挖掘工具之间的关系,并且通过采用逻辑决策语言来描述粒度,构建粒度世界的逻辑框架。Skowron在文献中也描述了粒语言,他将信息表上定义的逻辑公式的意义集看做信息粒,并讨论了这种信息粒的语法和语义。在这些研究的基础上,胡清华将邻域模型引入到粗糙集中,对邻域粗糙集模型进行了详细的定义,并设计可以同时约简名义型、数值型、混合型数据的约简算法。
随着数据的爆炸式增加,在运用邻域模型处理大数据时,时间效率就成为了首要考虑的因素。如何减少搜索和计算邻域信息粒子的时间,是一个值得考虑的问题。
邻域有两种定义方法:一种是由邻域内所含对象的数量而定,如经典的k-近邻方法;另一种是根据在某一度量上邻域中心点到边界的最大距离进行定义。本发明所涉及的邻域为第2种方法。
实数空间上的非空有限集合U={x1,x2,x3,…,xn},对于U上的任意对象xi,其θ邻域为θ(xi)={x∈U,Δ(x,xi)≤θ},其中,θ≥0,θ(xi)称为由xi生成的θ邻域信息粒子,简称xi的邻域粒子,就二维实数空间而言,基于1范数、2范数和无穷范数的邻域如图3所示,分别为菱形、圆形和正方形区域。度量的性质有:(1)因为xi∈θ(xi);(2)xj∈θ(xi)→xi∈θ(xj);(3)邻域信息粒子族{θ(xi)|i=1,2,…n}构成U的一个覆盖。
邻域信息粒子族引导出论域空间U上的一个邻域关系N,该关系可由一个关系矩阵来表示M(N)=(rij)n×n,如果xj∈θ(xi),则rij=1否则rij=0。
发明内容
本发明的目的在于一种应用哈希Hash划分桶快速获得邻域的方法,以减少搜索和计算邻域信息粒子的时间,实现运用邻域模型处理大数据的快速性。为此,本发明采用以下技术方案:
本发明方法的具体步骤如下:
一种应用哈希Hash划分桶快速获得邻域的方法,其特征在于它包括如下步骤:
步骤一,求分桶坐标系的坐标原点x0,
根据给定的邻域系统NRS=<U,N,θ>,U是全部样本记录构成的集合,N表示邻域关系,θ为邻域半径;
步骤二,求样本的距离,
对于求样本间的距离||xi-x0||;
步骤三,根据步骤二中的样本距离,用Hash方法建立搜索桶:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310261081.6/2.html,转载请声明来源钻瓜专利网。