[发明专利]适用于广域网的分布式交通大数据并行聚类方法在审

专利信息
申请号: 201811176056.7 申请日: 2018-10-10
公开(公告)号: CN109359679A 公开(公告)日: 2019-02-19
发明(设计)人: 洪月华 申请(专利权)人: 洪月华
主分类号: G06K9/62 分类号: G06K9/62;G06F9/50
代理公司: 广西南宁公平知识产权代理有限公司 45104 代理人: 黄春莲
地址: 530007 广西壮族自治区南*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 大数据 广域网 聚类运算 并行 聚类 聚类算法 周期增量 分布式计算 最小距离法 并行执行 动态更新 聚类结果 数据移动 算法实现 特征群体 行为模式 运算效率 构建 拷贝 校正 新类 优化 交通 挖掘 移动 重复 改进
【权利要求书】:

1.适用于广域网的分布式交通大数据并行聚类方法,其特征在于:分布式大数据的并行聚类运算按时序周期分为历史全量大数据分布式并行聚类运算和多个周期增量大数据分布式并行聚类运算持续执行,所述历史全量大数据分布式并行聚类运算步骤如下:

(1)对于广域网分布式存储的交通大数据,将每个数据源节点的数据分别分为多个数据块;

(2)历史全量大数据的Map运算:对步骤(1)的每个数据块分别用最大最小距离法优化K-means聚类算法进行Map运算,得到各个数据块的本地聚类结果;

(3)历史全量大数据的Combine运算:在数据源节点本地由Combine运算把步骤(2)各个数据块Map运算所得本地聚类结果进行合并得到局部聚类中间结果;

(4)历史全量大数据的Reduce运算:所有数据源节点把步骤(3)所得的各自的局部聚类中间结果分别经广域网传输到中心节点,在所述中心节点进行Reduce运算把所有收到的局部聚类中间结果合并为全局聚类结果;

(5)若步骤(4)达到最大迭代次数或全局聚类结果收敛,则结束Reduce运算,输出最终聚类结果;否则中心节点通过广域网把步骤(4)所得全局聚类结果分发到所有数据源节点的每个数据块,返回步骤(2)开始进行新一轮聚类迭代运算;

所述周期增量大数据分布式并行聚类运算步骤如下:

(A)将每个数据源节点当前周期内对应的增量数据分别分为多个增量数据块;

(B)周期增量大数据的Map运算:根据所述历史全量大数据分布式并行聚类运算得到的聚类结果或上一周期增量大数据分布式并行聚类运算得到的聚类结果,分别用Map运算对每个增量数据块里的每一条数据记录与已获得的聚类中心进行欧式距离的并行计算,按照距离最小原则将所得欧式距离满足约束条件的数据记录分配到对应类;

(C)周期增量大数据的Combine运算:每个数据源节点里当前所有数据记录包括当前周期增量数据、前序周期增量数据和历史全量数据按所属类,通过Combine运算并行地对每个类在该数据源节点的局部偏离误差进行计算;

(D)周期增量大数据的Reduce运算:全部数据源节点的局部偏离误差分别传送到中心节点后,在该中心节点通过Reduce运算根据对应类进行合并,得到每个类的跨数据源节点的全局偏离误差;若某个类的全局偏离误差大于给定阈值,则该类被解体,并按照类内数据记录所在数据源节点,与其它所有解体类、未被归类及孤立点的数据记录混合,在该数据源节点重新对混合数据记录分块后,用所述历史全量大数据分布式并行聚类运算再次进行聚类运算;否则,该类的周期增量聚类结束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于洪月华,未经洪月华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811176056.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top