[发明专利]一种应用哈希Hash划分桶快速获得邻域的方法有效

申请号：	201310261081.6	申请日：	2013-06-26
公开（公告）号：	CN103345491B	公开（公告）日：	2016-11-23
发明（设计）人：	蒋云良;曾志勇;刘勇	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	浙江杭州金通专利事务所有限公司 33100	代理人：	刘晓春
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种应用 hash 划分快速获得邻域方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于信息处理领域，尤其涉及一种以二范数距离为度量，采用哈希（Hash）划分桶缩小邻域信息粒子搜索空间的快速获得邻域的方法。

背景技术

随着信息技术的迅速发展以及数据库管理系统的广泛应用，人们记录的数据越来越多。激增的数据背后隐藏着许多重要的信息，人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。

T.Y.Lin于1988年提出了邻域模型的概念，他通过使用空间邻域实现对论域的粒化，并将空间邻域理解为基本的信息粒子，而后利用这些基本信息粒子来描述论域中的其他概念。在1998年，姚一豫教授以及在2002年吴伟志教授对邻域算子和邻域系统的基本系统性质分别进行了深入的研究。Yao讨论了粒计算与粗糙集、商空间等数据挖掘工具之间的关系，并且通过采用逻辑决策语言来描述粒度，构建粒度世界的逻辑框架。Skowron在文献中也描述了粒语言，他将信息表上定义的逻辑公式的意义集看做信息粒，并讨论了这种信息粒的语法和语义。在这些研究的基础上，胡清华将邻域模型引入到粗糙集中，对邻域粗糙集模型进行了详细的定义，并设计可以同时约简名义型、数值型、混合型数据的约简算法。

随着数据的爆炸式增加，在运用邻域模型处理大数据时，时间效率就成为了首要考虑的因素。如何减少搜索和计算邻域信息粒子的时间，是一个值得考虑的问题。

邻域有两种定义方法：一种是由邻域内所含对象的数量而定，如经典的k-近邻方法；另一种是根据在某一度量上邻域中心点到边界的最大距离进行定义。本发明所涉及的邻域为第2种方法。

实数空间上的非空有限集合U={x₁，x₂，x₃，…，x_n}，对于U上的任意对象x_i，其θ邻域为θ(x_i)={x∈U，Δ(x,x_i)≤θ}，其中，θ≥0，θ(x_i)称为由x_i生成的θ邻域信息粒子，简称x_i的邻域粒子，就二维实数空间而言，基于1范数、2范数和无穷范数的邻域如图3所示，分别为菱形、圆形和正方形区域。度量的性质有：(1)因为x_i∈θ(x_i);(2)x_j∈θ(x_i)→x_i∈θ(x_j);(3)邻域信息粒子族{θ(x_i)|i=1，2，…n}构成U的一个覆盖。