[发明专利]一种顾及位置重复和密度峰值点的签到位置数据聚类方法有效
申请号: | 201610707243.8 | 申请日: | 2016-08-23 |
公开(公告)号: | CN106326923B | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 邬群勇;刘萌 | 申请(专利权)人: | 福州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 位置重复 峰值点 聚类 位置数据 构建 预处理 城市居民 活动变化 聚类过程 聚类结果 空间聚集 边界点 密度簇 新对象 截断 点选 连通 搜索 集合 邻近 筛选 统计 | ||
本发明涉及了一种顾及位置重复和密度峰值点的签到位置数据聚类方法,包括以下步骤:1.构建原始签到对象并进行预处理;2.统计每个位置上原始签到对象数量以此构建新对象FPi并构成集合F;3.计算截断距离dc;4.计算每个FPi的局部密度ρi和高密度最邻近距离δi;5.计算阈值ρ0和δ0并筛选出密度峰值点;6.获取与每个峰值点密度连通的核心点簇;7.搜索每个核心点簇的边界点添加到核心点簇中构成峰值密度簇,完成全部聚类过程。本发明充分考虑了签到位置重复的问题,有效避免了位置重复数量较高的离群点选为峰值并聚类的情况,聚类结果更加准确可靠,可以更好地反映城市居民空间聚集和活动变化情况,具有较高的实用价值。
技术领域
本发明涉及一种顾及位置重复和密度峰值点的签到位置数据聚类方法。
背景技术
随着带有位置服务功能的移动设备如智能手机、平板电脑的普及,基于位置的社交网络LBSN不断发展壮大,为城市商圈探索,解决城市交通、资源配置等问题提供了良好的数据源。位置签到是LBSN中一个具有代表性的功能,表示了用户利用具有LBS功能的设备记录自己当前位置、表情以及照片等信息并发布到社交网络上的行为。由于获取用户准确的位置是十分困难的,现有的LBSN普遍带有位置候选模块,列出了用户可能处于的已知位置来让用户自己选择。因此,当不同的签到行为(不同用户或不同时间)选择同一候选位置进行签到时,就会出现签到位置重复现象。
空间聚类是空间数据挖掘中一个重要方法。基于密度的空间聚类能够自动剔除空间分布较稀疏的对象,将局部空间密度较高的对象聚集为一类。因此采用基于密度的空间聚类可以较好地发现位置签到数据所形成的活动热区从而挖掘出城市居民的活动规律。
现有的基于密度的空间聚类法包括:基于密度的空间聚类方法(DBSCAN)、适应局部密度变化的空间聚类方法(ADBSC)、以及格网密度法等。但是这些方法大多直接以点对象的空间距离作为相似性度量指标来进行聚类,没有考虑要素在空间位置上的重复性问题。直接采用以上方法对签到数据进行聚类很有可能将某一重复位置上的全部对象聚成一类,点位过少,不利于活动热区的空间表达。并且这类方法把密度簇内部的看成是密度均匀的,无法获取密度峰值等重要信息,由此无法了解签到行为的集中趋势。
2014年,Rodriguez等提出了快速搜索和查找密度峰值聚类算法(CFSFDP),但是对于带有位置重复的签到数据,很容易将位置重复度较高的离群对象选为密度峰值,造成结果的可靠性下降;此外,由于在聚类过程才有基于密度阈值的划分方法,没有考虑峰值与核心点之间的连通性,很难保证密度簇的连续与完整。
发明内容
有鉴于此,本发明的目的在于提供一种顾及位置重复和密度峰值点的签到位置数据聚类方法,提高了聚类簇的表达效果。
为实现上述目的,本发明采用如下技术方案:一种顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于,包括以下步骤:
步骤S1:从签到文本中提取出每条签到信息的编号以及经纬度信息构成原始签到对象,对所有的原始签到对象进行预处理后构成集合O;
步骤S2:统计集合O中每个位置上的原始签到对象的数量dFreq,以索引号、该位置的坐标和dFreq构建对象FPi,将所有的对象FPi构成集合F,记F的总量为NF;
步骤S3:计算集合F中两两对象间的欧式距离并构成距离矩阵D,并根据所述距离矩阵D计算出截断距离dc,其中D=[dij],为NF×NF方阵,dij为对象FPi与FPj之间的欧氏距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610707243.8/2.html,转载请声明来源钻瓜专利网。