[发明专利]一种动态K值聚类构建主题R树方法有效
申请号: | 202010025090.5 | 申请日: | 2020-01-10 |
公开(公告)号: | CN111221937B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 邹志文;秦程 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/29;G06F18/23213 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 值聚类 构建 主题 方法 | ||
本发明涉及一种动态K值聚类构建主题R树方法,通过K均值算法基本思想,动态地确定R树中节点个数;将文本主题分类引入算法,通过优先选取主题类似的空间信息以及距离指标的方法选取更加准确的聚类中心;每次确定完聚类中心后,通过聚类测度函数计算当前聚类测度函数值,与上一次聚类测度函数值比较,动态确定聚类中心数;对聚类中心进行R树构建,将子节点作为根节点进行迭代,不断地得到下一层R树索引;对每个节点构建主题倒排索引,形成主题R树;本发明解决了K均值算法构建R树不能动态确定K值的问题,并引入文本主题分类思想,使得聚类算法构建R树结构更紧凑;对每个节点构建主题倒排索引,提出构建主题R树,空间索引效率更高。
技术领域
本发明涉及空间索引技术领域,具体涉及一种动态K值聚类构建主题R树方法。
背景技术
移动互联网的迅猛发展,推动了基于地理位置信息服务(Location-BasedServices,简称LBS)的大量普及。最典型的例子就是地图类的服务,比如,百度地图、高德地图等。随着各种卫星遥感、GPS服务、传感器网络以及移动设备的不断出现,空间数据呈指数增长。由于空间数据的维度特性及位置关系的多样性,空间数据的处理与存储问题已经成为了亟待解决的问题。大多数空间数据的索引构建是通过R树来完成的,对如何构建高效的R树索引对空间数据查询具有重要意义。
对于一些研究人员提出的各种聚类方式构建R树的方法存在着各种优缺点。例如利用k均值算法来聚类空间数据构造索引的过程中,需要指定k的值,这并不符合空间数据的分布不规律性;又如利用聚类算法构建空间数据索引时,初始聚类中心随机或指定选取,聚类结果容易受到离群空间数据的干扰。
发明内容
针对上述存在的问题,本发明提出了一种动态K值聚类构建主题R树方法,通过文本主题分类加距离指标的方法选取更准确的聚类中心,通过聚类测度函数动态确定聚类中心数,使得聚类算法构建R树结构更紧凑,并提出对每个节点构建主题倒排索引,本发明提出的主题R树空间索引效率更高。
为实现上述目的,本发明具体技术方案如下:一种动态K值聚类构建空间主题R树索引的方法,包含如下步骤:
1)利用地图开放的api获取城市中路网数据Citydataloca1、loca2…locaM,其中locai=loni、lati、poii表示第i个地理位置信息,其中loni、lati、poii分别表示经度、维度、空间文本信息;
2)获取指定的最小外接矩形(Minimum Bounding Rectangle,简称MBR),将其看作一个大类,此时初始聚类数k=1,通过经纬度得到MBR初始类数据均值点C1;
3)选取距离初始类数据均值点C1最远的空间数据C2、距离C2最远的空间数据C3作为新的数据均值点,计算C1、C2的经纬度之差,得到第二个MBR,计算C2,C3的经纬度之差,得到第三个MBR;
4)此时k值相应增加,计算当前k值对应的聚类测度函数值Jk;
5)将Jk与前一次聚类测度函数值Jk-1进行比较,若此时函数收敛,则取当前k值为聚类数;若此时函数发散,则对新的MBR重复步骤2)到步骤5),k值继续递增至M;
6)通过距离指标R得到当前数据均值点Ck邻近空间数据集poiList;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010025090.5/2.html,转载请声明来源钻瓜专利网。