[发明专利]一种动态地理网格聚类算法在审
申请号: | 201410199387.8 | 申请日: | 2014-05-08 |
公开(公告)号: | CN104021274A | 公开(公告)日: | 2014-09-03 |
发明(设计)人: | 凌晨;胡亮;邢长胜;何宇 | 申请(专利权)人: | 烽火通信科技股份有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 地理 网格 算法 | ||
技术领域
本申请属于数据挖掘技术领域,涉及聚类分析,尤其涉及一种动态地理网格的聚类分析算法。
背景技术
聚类分析是数据挖掘中广为研究的课题之一,是从数据中寻找数据间的相似性,并依此对数据进行分类,从而发现数据中隐含的有用信息或知识。网格方法是空间数据处理中常用的将空间数据离散化的方法,基于网格的聚类算法由于易于增量实现和进行高维数据处理而被广泛应用于聚类算法中。
传统的地理网格地图是一种比较简单的地图类型。将地图区域按照平面坐标或者按照经纬度划分网格,以网格为单元描述地理位置信息。把这种特定的划分方式延伸到与数据融合中来,可以用在区域综合分析,统计空间制图,以及数据挖掘等方面。
目前,研究人员已经提出了很多基于网格的聚类算法,其中STING、WaveCluster和CLIQUE是具有代表性的基于网格的聚类算法,或者说是比较传统的基于网格的聚类算法。此外聚类算法还有蚁群聚类算法等传统的网格聚类算法,如STING,它的网格结构的最低层的划分粒度决定了自身算法聚类的质量。如果网格结构的最低层的划分粒度比较粗,网格单元的数量相对较少,则会减少聚类时间,聚类速度快,但是粗粒度会降低聚类精度;反之,如果网格结构的最低层的划分粒度比较细,就会得到较高的聚类精度,但同时处理开销会增加,从而导致聚类时间会较长。另一方面,如果网格结构的最低层的划分粒度过小,就会增加网格单元的数量,可能会导致落入网格单元中的数据点数目过少,从而不满足稠密度阈值要求而被忽略。蚁群聚类算法是聚类分析常用的算法,基于蚁群算法的聚类分析方法在聚类分析过程中,运行时间可能较长,对于要求实时性的系统性能不能达到要求。
发明内容
本专利申请要解决的技术问题是:针对传统的基于网格的聚类算法的不足,提供一种新的地理网格聚类算法,提高聚类的精度和实时性。
为了解决上述技术问题,本专利申请提供了一种动态地理网格聚类算法。具体步骤包括:
1)找出区域中的最大、最小经纬度,再根据步进长度step对最大、最小经纬度之间的区域划分网格,其中,步进长度可在聚合数据分析中根据实际情况自行调整;
2)计算出每个点所在的网格的编号,点Pn(Xn,Yn)网格编号的方法如下:
(1)计算点Pn所在的列数C(Pn)=(Xn-Xmin)/step;
(2)计算点Pn所在的行数R(Pn)=(Yn-Ymin)/step;
(3)计算点Pn所在的网格编号G(Pn)=1+R(Pn)*(Xmax-Xmin)/step+C(Pn)
同一网格中的数据我们认为它们具有共同的聚类属性,对同一个网格内的点进行聚类,计算出聚合重心点;聚合重心点的计算方法可采用常规的重心点计算方法;
3)以第一次划分的网格为基础分别向上、下、左、右方向移动,移动方向的顺序不限,移动长度根据区域范围大小、点分布的密集程度以及聚类精度要求自行调整(一般小于步进长度),互为对称方向的移动次数保持一致,每次移动后都重复步骤1)进行聚类。
较佳的,根据区域范围大小、点分布的密集程度以及聚类精度要求选取合适的移动长度,将网格向上、下、左、右方向各移动一次,移动方向顺序不限,每次移动后重复步骤1)进行聚类,所有的聚类点构成最终的聚类结果。
本申请的有益后果是:
1.传统的网格划分方法需要将整张地图进行划分然后对每个格子进行编号,本专利所述方法无需考虑地图边界,只取决于欲分析的数据的边界值;
2.动态平移网格时,粗细粒度自由控制,灵活性高,且速度高效。
附图说明
附图1为实施例中第一次划分的网格图;
附图2为网格右移示意图。
具体实施方式
本专利申请所述的一种动态地理网格聚类算法,在实现本方法时,在出现经纬度点的一块区域中找出最大、最小经纬度,例如,现有Pl-Pn个点P1(x1,y1),P2(x2,y2),…Pn(xn,yn),首先取出P1-Pn个点中的最大、最小经纬度(Xmax,Xmin,Ymax,Ymin);再根据步进长度step对最大、最小经纬度之间的区域划分网格,并且计算出每个点所在的网格的编号。在聚合数据分析中结合区域大小、点的分布情况以及聚类精度等自行调整步进长度的大小,例如区域范围较大,且点的分布较稀疏时,步进长度应稍大,反之,区域范围较小,且点的分布较密集,对聚类精度要求较高时,步进长度应稍小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烽火通信科技股份有限公司,未经烽火通信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410199387.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据分群、分段、以及并行化
- 下一篇:盘管组合装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用