[发明专利]适用于广域网的分布式交通大数据并行聚类方法在审
申请号: | 201811176056.7 | 申请日: | 2018-10-10 |
公开(公告)号: | CN109359679A | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 洪月华 | 申请(专利权)人: | 洪月华 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F9/50 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530007 广西壮族自治区南*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了适用于广域网的分布式交通大数据并行聚类方法,分布式大数据的并行聚类运算按时序周期分为历史全量阶段和多个周期增量阶段持续执行,首先用最大最小距离法优化k‑means聚类算法;其次构建适用于广域网的基于MapReduce的分布式并行聚类计算框架,在该框架里再次优化改进的聚类算法实现了在广域网内分布式的并行执行,然后用该算法实现对历史全量大数据的分布式并行聚类运算,从中挖掘出特征群体及其行为模式;最后定期用多个周期增量大数据的聚类运算不断地校正历史全量大数据的聚类结果,对已有类动态更新或生成新类;通过分布式计算避免大数据的广域网内拷贝移动和重复聚类运算,降低了数据移动成本,提高运算效率。 | ||
搜索关键词: | 大数据 广域网 聚类运算 并行 聚类 聚类算法 周期增量 分布式计算 最小距离法 并行执行 动态更新 聚类结果 数据移动 算法实现 特征群体 行为模式 运算效率 构建 拷贝 校正 新类 优化 交通 挖掘 移动 重复 改进 | ||
【主权项】:
1.适用于广域网的分布式交通大数据并行聚类方法,其特征在于:分布式大数据的并行聚类运算按时序周期分为历史全量大数据分布式并行聚类运算和多个周期增量大数据分布式并行聚类运算持续执行,所述历史全量大数据分布式并行聚类运算步骤如下:(1)对于广域网分布式存储的交通大数据,将每个数据源节点的数据分别分为多个数据块;(2)历史全量大数据的Map运算:对步骤(1)的每个数据块分别用最大最小距离法优化K‑means聚类算法进行Map运算,得到各个数据块的本地聚类结果;(3)历史全量大数据的Combine运算:在数据源节点本地由Combine运算把步骤(2)各个数据块Map运算所得本地聚类结果进行合并得到局部聚类中间结果;(4)历史全量大数据的Reduce运算:所有数据源节点把步骤(3)所得的各自的局部聚类中间结果分别经广域网传输到中心节点,在所述中心节点进行Reduce运算把所有收到的局部聚类中间结果合并为全局聚类结果;(5)若步骤(4)达到最大迭代次数或全局聚类结果收敛,则结束Reduce运算,输出最终聚类结果;否则中心节点通过广域网把步骤(4)所得全局聚类结果分发到所有数据源节点的每个数据块,返回步骤(2)开始进行新一轮聚类迭代运算;所述周期增量大数据分布式并行聚类运算步骤如下:(A)将每个数据源节点当前周期内对应的增量数据分别分为多个增量数据块;(B)周期增量大数据的Map运算:根据所述历史全量大数据分布式并行聚类运算得到的聚类结果或上一周期增量大数据分布式并行聚类运算得到的聚类结果,分别用Map运算对每个增量数据块里的每一条数据记录与已获得的聚类中心进行欧式距离的并行计算,按照距离最小原则将所得欧式距离满足约束条件的数据记录分配到对应类;(C)周期增量大数据的Combine运算:每个数据源节点里当前所有数据记录包括当前周期增量数据、前序周期增量数据和历史全量数据按所属类,通过Combine运算并行地对每个类在该数据源节点的局部偏离误差进行计算;(D)周期增量大数据的Reduce运算:全部数据源节点的局部偏离误差分别传送到中心节点后,在该中心节点通过Reduce运算根据对应类进行合并,得到每个类的跨数据源节点的全局偏离误差;若某个类的全局偏离误差大于给定阈值,则该类被解体,并按照类内数据记录所在数据源节点,与其它所有解体类、未被归类及孤立点的数据记录混合,在该数据源节点重新对混合数据记录分块后,用所述历史全量大数据分布式并行聚类运算再次进行聚类运算;否则,该类的周期增量聚类结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于洪月华,未经洪月华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811176056.7/,转载请声明来源钻瓜专利网。