[发明专利]适用于广域网的分布式交通大数据并行聚类方法在审
申请号: | 201811176056.7 | 申请日: | 2018-10-10 |
公开(公告)号: | CN109359679A | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 洪月华 | 申请(专利权)人: | 洪月华 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F9/50 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530007 广西壮族自治区南*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 广域网 聚类运算 并行 聚类 聚类算法 周期增量 分布式计算 最小距离法 并行执行 动态更新 聚类结果 数据移动 算法实现 特征群体 行为模式 运算效率 构建 拷贝 校正 新类 优化 交通 挖掘 移动 重复 改进 | ||
本发明公开了适用于广域网的分布式交通大数据并行聚类方法,分布式大数据的并行聚类运算按时序周期分为历史全量阶段和多个周期增量阶段持续执行,首先用最大最小距离法优化k‑means聚类算法;其次构建适用于广域网的基于MapReduce的分布式并行聚类计算框架,在该框架里再次优化改进的聚类算法实现了在广域网内分布式的并行执行,然后用该算法实现对历史全量大数据的分布式并行聚类运算,从中挖掘出特征群体及其行为模式;最后定期用多个周期增量大数据的聚类运算不断地校正历史全量大数据的聚类结果,对已有类动态更新或生成新类;通过分布式计算避免大数据的广域网内拷贝移动和重复聚类运算,降低了数据移动成本,提高运算效率。
技术领域
本发明属于数据处理技术领域,特别涉及适用于广域网的分布式交通大数据并行聚类方法。
背景技术
大数据分布式地存储在广域网环境里,对结构复杂、总量巨大(达到TB甚至PB级别)的数据进行移动集中后再进行传统的基于局域网的并行化聚类运算,因时间、金钱和设备等成本无法直接适用。而利用抽样降低数据规模,使用降维减少数据复杂度,都对聚类结果的准确性有影响。这就亟需我们改变本地局域网传统的聚类挖掘方法,从而使得数据聚类的效率和准确率得到提高。
在实际应用方面,电动车群体行为模式的分布式交通大数据的聚类问题是亟待解决的问题。目前是交通事故高发时期,电动车已成为新的道路交通安全隐患,由于电动车违规引起的事故占相当比例,如果能发现电动车违规的群体行为模式并制定相应的应对方案,就能有效地控制电动车违规事件的发生,使得交通事故得到减少。
违规的电动车数据能从监控录像得到,同时对图像处理后还能得到当时路面上一起等待过马路的电动车数量、路口逆行、违反规定载物、超载、超速、走机动车道等信息,而该路段的车速及红灯时长和路面宽度等信息是已知的。每个违规的电动车都必然有这些维度的信息,同时每个地方都有很多电动车违规的数据,但是若从整个国家的层面上挖掘电动车违规的群体行为模式却必须面对大数据的广域网内拷贝移动问题,十分有必要发明一个卓有成效的分布式交通大数据并行聚类方法。
发明内容
针对上述现有技术存在的问题,本发明提出一种适用于广域网的分布式交通大数据并行聚类方法。
本发明处理的对象是分布式地存储在广域网的大数据,提出一个适用于广域网的基于MapReduce的分布式并行聚类计算框架,同时在实际应用中基于该框架优化改进聚类算法,使得聚类计算在广域网内跨节点能分布式并行执行与增量执行,大数据的分布式并行聚类运算按时序周期分为历史全量阶段和多个周期增量阶段持续执行。实现对历史全量大数据的分布式并行聚类运算,挖掘出群体行为模式后再用多个增量大数据的聚类运算不断地修正聚类结果。
本发明采用的技术方案如下:
1.最大最小距离法优化K-means聚类算法
设待聚类数据集R={Rp|p=1,2,…,n},数据记录Rp的属性个数是q,则Rp={rp1,rp2,…,rpq}。
为了避免k-means算法随意选择过于邻近的初始中心点,提高聚类质量,对其用最大最小距离法进行优化,得到k个初始聚类中心。具体方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于洪月华,未经洪月华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811176056.7/2.html,转载请声明来源钻瓜专利网。