[发明专利]一种基于storm的实时空间最近邻分类预测方法及系统有效
申请号: | 202011238726.0 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112308165B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 夏喆;李鑫;邹承明 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2458;G06F16/28 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 storm 实时 空间 近邻 分类 预测 方法 系统 | ||
本发明公开了一种基于storm的实时空间最近邻分类预测方法及系统,用storm启动一个拓扑网络,拓扑网络包括用于产生不同的数据源的TrainSpout、SearchSpout,和用于完成不同的数据处理任务的GridTrainBolt、LocationBolt、AknnBolt、NeiborBolt、ResultBolt、ClaBolt;本发明首先进行空间数据预处理;然后构建空间搜索模型;接着根据查询结果汇总成为最终的空间邻近列表;最后对预测点进行分类预测。本发明可以有效解决传统算法处理大规模空间数据的低效性和静态大数据平台无法满足实时性要求的问题。
技术领域
本发明属于数据挖掘技术领域,涉及一种实时空间最近邻分类预测方法及系统,具体涉及一种基于storm的实时空间最近邻分类预测方法及系统。
背景技术
空间最近邻查询作为基于位置服务的查询技术,通常应用于内容的相似性检索,地理信息检索等领域。而随着技术突飞猛进的发展,人们采集的数据内容越来越多,数据的规模越来越大,尤其是空间数据的规模大都为TB甚至PB级。传统的最近邻查询方法在处理大规模数据时会由于空间数据结构的复杂性,使得查询会耗费相当多的时间,并且长时间的占用资源,无法满足查询的快捷性。
流数据是连续的、没有边界的、快速的、随时间不断变化的系列数据项。区别于大规模静态数据,流数据的价值是随时间递减的,因此如果使用传统的大数据处理平台Hadoop对数据进行处理,将不能满足空间最近邻的实时查询,导致查询结果失去应有的价值。
KNN算法是最常用的分类算法之一,它的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。KNN算法的特点是适合多分类问题还可以处理回归问题,但它计算量巨大,需要遍历全体样本才能得到它的近邻点列表,时间成本巨大的问题在处理空间数据时会更加严重。因此,利用分布式流式数据平台,对空间数据采用优化后的KNN算法,对于KNN算法在空间数据的实时应用有着重要的意义。
发明内容
本发明的目的是提供一种基于storm的实时空间最近邻分类预测方法,用以解决传统算法处理大规模空间数据的低效性和静态大数据平台无法满足实时性要求的问题。
本发明的方法所采用的技术方案是:一种基于storm的实时空间最近邻分类预测方法,其特征在于:首先用storm启动一个拓扑网络,所述拓扑网络包括TrainSpout、SearchSpout、GridTrainBolt、LocationBolt、AknnBolt、NeiborBolt、ResultBolt、ClaBolt节点;所述TrainSpout、SearchSpout,用于产生不同的数据源;所述GridTrainBolt、LocationBolt、AknnBolt、NeiborBolt、ResultBolt、ClaBolt,用于完成不同的数据处理任务;
所述方法包括以下步骤:
步骤1:空间数据预处理;
步骤1.1:TrainSpout接收传感器采集的原始数据,将其发送到GridTrainBolt中进行数据预处理以便得到进行网格定位的数据集。
步骤1.2:GridTrainBolt对空间数据进行网格划分,确定每个训练点所在的网格单元,同时设置一个参数Gmax,其中Gmax的取值应大于AknnBolt中堆容量K的取值;Gmax的大小决定了每个单元包含的训练点的上限,当网格单元中的值大于Gmax时,对该网格单元进行再次划分,直至每个网格单元中的训练点个数小于Gmax,对于不含训练点的网格单元进行舍去;GridTrainBolt处理完成的数据持久化保存在Redis数据库中;
步骤1.3:SearchSpout接收由分布式发布订阅消息系统Kafka实时分发的预测点,将每个预测点转化成数据流源源不断地发送到LocationBolt中,进行预测点的数据预处理以便得到经过网格单元定位的预测点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011238726.0/2.html,转载请声明来源钻瓜专利网。