[发明专利]一种近似的海量地址数据最近邻查询方法有效
申请号: | 201410217378.7 | 申请日: | 2014-05-22 |
公开(公告)号: | CN103995871B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 宋杰;徐澍;李甜甜;朱志良 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 沈阳东大知识产权代理有限公司21109 | 代理人: | 梁焱 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 似的 海量 地址 数据 近邻 查询 方法 | ||
技术领域
本发明属于数据挖掘领域,具体涉及一种近似的海量地址数据最近邻查询方法。
背景技术
如今的我们正生活于一个全球数据爆炸增长的时代。IDC研究表明,从2006年到2010年,全球信息总量增长6倍以上,从161EB增长到988EB,仅仅美国国家航空航天安全局的一个地球预测数据库中存储的数据量就已经超过1010MB。未来全球数据的爆炸性增长,一方面源于物联网的发展,物联网技术使用数以万计的传感器,能够采集到惊人的数据量。另一方面则是源于移动设备(智能手机、平板电脑)以及社交网络的普及。用户每天通过各种移动终端设备分享各种图片和视频内容,同时,还不断的通过社交网络分享和传播各种信息。另外,机器日志、车载GPS和零售交易数据等,这些都不断促使“数据之山越来越高”。数据的爆炸性增长同时造成了一定程度的信息危机,如何在浩如烟海的大数据中快速有效的找到有价值的信息已成为一个愈受关注的问题。
同时基于位置的服务在社会生活中扮演的角色也越来越重要,它为用户提供需要的位置相关信息的服务,因此基于空间数据的最近邻查询算法(KNN)的应用也非常广泛,其主要应用于智能导航、电子商务、交通控制和空间聚类等领域。一个典型案例就是在纽约机场附近通过GPS定位服务寻找附近几个最近的餐馆。
KNN方法思路非常简单直观,易于实现;不需要产生额外的数据来描述规则,它的规则本身就是数据(样本);它允许训练样本库存在噪音。但同时KNN也存在处理过程中相似度计算量过大、中间结果占据存储空间等问题。可以说大数据领域对最近邻查询提出新的要求,因此需要针对其缺点对KNN分类算法进行改进。到目前为止绝大多数解决方法都是从减少样本量方面考虑的:当训练样本集中样本数量较大时,为了减小计算开销,可以对训练样本集进行编辑处理,即从原始训练样本集中选择最优的参考子集进行K最近邻寻找,从而减少训练样本的存储量和提高计算效率。但是在浓缩训练样本时可能存在损失样本数据信息的情况,同时又很难去评价浓缩后样本的结果与真实结果两者间的近似度。
发明内容
针对现有技术的缺点,本发明提出一种近似的海量地址数据最近邻查询方法,以达到实现用户自行设定希望查询值与真实值之间的误差、在海量数据环境中快速数据查询的目的。
一种近似的海量地址数据最近邻查询方法,包括以下步骤:
步骤1、采用GPRS系统查询用户所在位置周围的所有目标地址;
步骤2、根据实际需求设定垂直距离和水平距离的权值;
步骤3、计算加权值,即将垂直距离乘以其权值获得的结果与水平距离乘以其权值获得的结果相加;
步骤4、根据实际需求设置查询条件,包括查询目标地址个数、查询误差和确定查询算法;
步骤5、判断设置的查询条件是否满足约束条件,具体为:
约束1:查询目标地址个数小于或等于GPRS系统中查询的目标地址总数;
约束2:查询误差大于或等于零;
约束3:查询算法为近似KNN算法;
若同时满足约束1~约束3,则执行步骤6;
若同时满足约束1和约束2,则执行步骤12;
若同时不满足约束1~约束3,则返回执行步骤4进行重新设置;
步骤6、将GPRS系统中记录的所有目标地址按照记录顺序进行分组,每组的地址个数为查询目标地址个数;
步骤7、判断分组后的每组实际地址个数是否均大于设置的查询目标地址个数,若是,则执行步骤8,否则,从未满足条件的组的第一条地址记录起向前查找地址,作为该组的地址进行补充,直至该组地址个数达到设置的查询目标地址个数,执行步骤8;
步骤8、随机选取每组中一个地址作为代表数据,并在每组中选择另一个地址数据,计算该地址数据与代表数据之间的加权值差值;
步骤9、判断上述加权值差值的绝对值是否超过用户设定的四分之一倍的查询误差,若超过,则返回执行步骤4重新设置查询误差,否则,继续选择每组中的其他地址数据进行计算判断,直至完成每组中的所有地址数据的比较判断,执行步骤10;
步骤10、采用最近邻查询算法根据每组中的代表数据进行计算,获得所有代表数据中一个距离最近的地址;
步骤11、将距离最近的代表数据所在的分组中所有地址输出显示,完成用户的地址查询;
步骤12、直接采用最近邻查询算法对GPRS系统所查询的所有目标地址进行计算,获得距离用户最近的地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410217378.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置