[发明专利]一种按需聚类的大数据流式聚类处理系统及方法有效
申请号: | 201310255931.1 | 申请日: | 2013-06-19 |
公开(公告)号: | CN103353883B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 赵淦森;虞海;王维栋;卓超 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州嘉权专利商标事务所有限公司44205 | 代理人: | 谭英强 |
地址: | 510631 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 按需聚类 数据流 式聚类 处理 系统 方法 | ||
1.一种按需聚类的大数据流式聚类处理系统,其特征在于:该系统包括有快速计算模块、数据概念漂移检测模块和聚类模块,所述快速计算模块的输出端通过数据概念漂移检测模块连接至聚类模块的第一输入端,所述聚类模块连接至快速计算模块。
2.根据权利要求1所述的一种按需聚类的大数据流式聚类处理系统,其特征在于:该系统还包括有资源监控模块,所述资源监控模块的第一输出端连接至快速计算模块的输入端,所述资源监控模块的第二输出端连接至聚类模块的第二输入端。
3.根据权利要求2所述的一种按需聚类的大数据流式聚类处理系统,其特征在于:所述快速计算模块包括有数据过滤策略模块、数据过滤执行模块、数据摘要模块和聚类结果实时服务模块,所述资源监控模块的第一输出端依次通过数据过滤策略模块、数据过滤执行模块、数据摘要模块连接至数据概念漂移检测模块的输入端,所述聚类结果实时服务模块连接至聚类模块。
4.根据权利要求3所述的一种按需聚类的大数据流式聚类处理系统,其特征在于:所述数据概念漂移检测模块包括有数据概念漂移定义模块,所述数据概念漂移定义模块分别连接有数据概念漂移计算模块和数据概念漂移识别模块,所述数据摘要模块的输出端依次通过数据概念漂移计算模块、数据概念漂移识别模块连接至聚类模块的第一输入端。
5.根据权利要求4所述的一种按需聚类的大数据流式聚类处理系统,其特征在于:所述聚类模块包括有聚类触发模块、聚类策略模块、聚类执行模块和聚类结果提供模块,所述数据概念漂移识别模块的输出端连接至聚类触发模块的输入端,所述聚类触发模块的第一输出端连接至聚类结果提供模块的第一输入端,所述聚类触发模块的第二输出端依次通过聚类策略模块和聚类执行模块连接至聚类结果提供模块的第二输入端,所述聚类结果实时服务模块的输出端连接至聚类执行模块的输入端,所述聚类结果提供模块的输出端连接至聚类结果实时服务模块的输入端。
6.根据权利要求5所述的一种按需聚类的大数据流式聚类处理系统,其特征在于:所述聚类结果提供模块的输出端还连接至数据概念漂移计算模块的输入端。
7.根据权利要求5所述的一种按需聚类的大数据流式聚类处理系统,其特征在于:所述资源监控模块包括有数据流速监控模块、计算服务资源监控模块和聚类资源消耗监控模块,所述数据流速监控模块的输出端和计算服务资源监控模块的第一输出端均连接至数据过滤策略模块的输入端,所述计算服务资源监控模块的第二输出端和聚类资源消耗监控模块的输出端均连接至聚类策略模块的输入端。
8.一种按需聚类的大数据流式聚类处理方法,其特征在于:该聚类处理方法包括以下步骤:
A、将输入的数据流数据进行过滤操作和数据特征抽取,获得中间处理结果;
B、对上述中间处理结果进行概念漂移的分析和检测,然后根据分析和检测的结果对中间处理结果进行计算,从而判断数据是否发生概念漂移,并产生相应的数据参数;
C、若上述数据参数符合触发聚类处理的触发条件,则利用上述中间处理结果和数据参数进行精细化聚类处理计算,并返回合适的聚类结果。
9.根据权利要求8所述的一种按需聚类的大数据流式聚类处理方法,其特征在于:所述步骤A中的过滤操作为将输入的数据流根据数据流速参数和计算服务资源参数执行相应的数据过滤操作。
10.根据权利要求8或9所述的一种按需聚类的大数据流式聚类处理方法,其特征在于:所述步骤C中精细化聚类处理计算的过程为利用上述中间处理结果和数据参数,并根据计算服务资源参数和聚类资源消耗参数动态自适应地选取相应的聚类方法执行计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310255931.1/1.html,转载请声明来源钻瓜专利网。