[发明专利]一种基于马尔科夫链的跨地理分布轨迹聚类方法在审
申请号: | 202010843598.6 | 申请日: | 2020-08-20 |
公开(公告)号: | CN112100652A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 陈爱国;罗光春;赵太银;田玲;陈远帆;王国安 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 邹裕蓉 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 马尔科夫链 地理分布 轨迹 方法 | ||
本发明提供一种基于马尔科夫链的跨地理分布轨迹聚类方法,包括步骤:S1属地轨迹预处理步骤;S2属地轨迹生成模型估计:属地节点将预处理后的轨迹子簇集合中所有轨迹经过的网格空间点转换至马尔科夫链模型中的状态空间,形成状态集合;利用轨迹子簇的中的状态集合训练该轨迹子簇对应的马尔科夫链模型,得到马尔科夫链模型对应的转移矩阵;属地节点将本地的转移矩阵和状态集合发送至中心节点;S3:综合求解步骤:中心节点利用各个属地节点传递的转移矩阵和状态集合实现全局轨迹的聚类操作得到簇心集合并发送至各属地节点。本发明提高了聚类准确度,同时在数据隐私保护和网络带宽压方面也有很好的表现。
技术领域
本发明涉及分布式数据挖掘技术,特别涉及有数据隐私保护和网络带宽压缩要求的分布式轨迹聚类技术。
背景技术
随着大数据时代的来临,数据规模增长迅猛,如何从大规模数据中挖掘出有价值的信息成为众多企业和机构需要思考的问题。
聚类算法作为一种数据挖掘技术已被专业人员广泛地应用,聚类算法能够将大量无标签的数据划分成若干个簇,簇中的元素共同包含着某种隐性的特征。在移动互联网时代,用户轨迹数据快速积累,通过对时空轨迹数据的聚类分析,我们可以发现用户的行为模式,或筛选出异常的轨迹数据等等;聚类算法输入的数据是无标签的,在机器学习中属于无监督学习中的一种。
目前针对分布式聚类算法的研究已经取得了一些成果,一部分研究方法是以数据聚合为前提的,这类方法首先需要将分布式中的数据集合在一起,然后以特定的方式将数据集划分给各个属地节点以提高聚类准确度和计算高效性,这类方法在聚类准确度上和数据集中式聚类相当,但是由于需要原始数据在网络中传输,这使得该算法在很多需要考虑数据隐私性的场景下变得不适用;鉴于数据隐私层面的考虑,一部分研究基于安全多方计算提出了自定义用于分布式计算加密协议,这类方法虽然在数据隐私层面和聚类准确度上表现良好,但却消耗了大量的带宽资源,特别是对于在数据量爆炸式增长的今天。
另一部分研究主流思路是基于局部聚类和全局聚类相结合的方式,其主要思想为:在分布式框架中有两种角色,若干个属地节点和一个中心节点,属地节点基于本地的数据先进行局部聚类,然后依据局部聚类结果和一些额外的统计信息组成特定的数据结构,各个属地节点将由局部聚类结果和统计信息组成的数据结构通过网络传输给中心节点,中心节点利用局部聚类结果进行全局聚类,然后将全局聚类结果传输给各个属地节点。这类方法由于其在计算准确度、带宽和隐私性层面三方面的平衡,受到了很多学者的青睐,但这类算法的计算准确度不太稳定,造成这种不稳定的原因是这类方法在网络中传输的数据结构与数据的真实分布不是一一映射的关系,一个属地节点利用局部聚类结果和统计信息组成的数据结构可能对应多种数据分布,而这种映射到数据分布的多样性将给后续的全局聚类造成影响,数据结构到数据分布的多样性如图1所示。
图1中叉表示局部聚类得到的簇心,A对应的是真实数据分布,而A1、A2和A3对应的数据分布与A对应的数据分布有着同样的数据结构,即一个包括相同簇心和统计信息的数据结构会对应着多种数据分布,而不同的数据分布可能使得全局聚类的结果迥然不同,出现因数据分布多样性导致的聚类准确度不稳定的问题。
发明内容
本发明所要解决的技术问题是,提供一种能避免了因数据分布多样性导致的聚类准确度不稳定的跨地理分布轨迹聚类方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于马尔科夫链的跨地理分布轨迹聚类方法,包括步骤:
S1属地轨迹预处理步骤:属地节点对属地轨迹数据进行预处理操作,将属地轨迹数据集划分成若干个轨迹子簇,并对每一个轨迹子簇进行网格化操作,使得轨迹子簇中所有轨迹坐标均通过网格空间中网格空间点表示;最后将网格化处理后的轨迹子簇进行网格坐标填充;
S2属地轨迹生成模型估计:属地节点利用预处理后的轨迹子簇集合模拟轨迹数据生成模型,具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010843598.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多供区柔性互联系统
- 下一篇:一种基于光触媒催化技术的废水处理装置