[发明专利]大规模数据聚类分析的并行化有效
申请号: | 201110183886.4 | 申请日: | 2011-06-30 |
公开(公告)号: | CN102855259A | 公开(公告)日: | 2013-01-02 |
发明(设计)人: | 黎文宪;孙谷飞 | 申请(专利权)人: | SAP股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 德国瓦*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 数据 聚类分析 并行 | ||
技术领域
本说明书涉及并行处理。
背景技术
并行处理通常指的是将一个或多个计算任务划分为两个或更多子任务的概念,每个子任务可以在单独的处理器上运行。换句话说,把一个较大的计算任务分成若干子任务,然后将这些子任务分配到两个或多个处理器上执行。与仅使用所述处理器中的一个处理器可能达到的效果相比,通过使用这样的并行处理技术,在许多情况下,可以以更快速并且更有效的方式完成计算任务。
然而,实际上,可能存在大量障碍使得难以或者无法执行给定计算任务的并行处理,特别是对于特定类型或者类别的计算任务。举例来说,一般地,要求至少与并行处理关联的计算开销要小。举例来说,对于一项将并行运行的给定计算任务来说,可能需要将与该计算任务相关的数据的部分或者全部复制到将使用的每一个处理器中。更一般来说,可以理解,最好没有为并行处理而进行的数据分割或复制而带来的计算开销。而且,在并行运行的处理器中的任意一个处的延迟或困难可能导致该任务的计算整体上的延迟。而且,因为子任务在两个或更多处理器处完成,所以可能需要计算资源来整合在两个或更多处理器中的每一个处执行的并行处理的结果,以便得到该计算任务整体的统一计算结果。因此,由于可能与在并行处理中处理子任务的划分、计算以及整合相关联的这些计算开销,在许多情况下利用并行处理技术可能是不现实的。
举例来说,特定类型的计算任务可能需要对相对来说非常大的数据集的每一元素与相对较小的数据集的每一元素的比较或者其它操作。例如,在一个为了说明的特定例子中,可能出现:需要将一个包括三百万个记录——每一个记录有300个属性——的数据集与第二数据集的100个记录中的每一个相比较(诸如,举例来说,当希望将三百万个记录中的每一个分组到被认定是最相似的100个聚类中的一个中时)。因此,这样的计算将需要三百万乘300再乘100次单独计算。而且,将数据集划分以使用单独的处理器处理是不可行的,因为该计算的本质是:将第一较大数据集的全部记录和属性与第二较小数据集的个个元素都进行比较。因此,从在这些以及其它类型的计算场景(context)中使用并行处理技术得到显著的益处可能是不可能的或者是行不通的。
发明内容
根据一个一般方面,计算机系统可以包括记录在计算机可读介质上的指令。该系统可以包括聚类选择器,其被配置为确定多个样本聚类,以及在多个处理核中的每一个处再现所述多个样本聚类。该系统可以包括样本划分器,其被配置为将存储在数据库中的具有关联属性的多个样本划分为数目相应于所述多个处理核的数目的样本子集,并且还被配置为将所述数目的样本子集中的每一个与所述多个处理核中的对应一个关联。该系统可以包括整合操作器,其被配置为基于所述多个处理核中的每个对应核处的每个样本子集中的每个样本的关联属性,执行所述每个样本相对于在所述对应处理核处再现的多个样本聚类中的每一个的比较。
实施方式可以包括一个或多个下列特征。例如,所述聚类选择器可以被配置为通过图形用户界面(GUI)从用户接收的多个样本聚类的数目。所述系统可以包括合并器,其被配置为合并所述在多个处理核中的每一个处执行的比较的比较结果,以便由此以所述多个样本填充所述样本聚类。样本子集的数目可以等于所述多个处理核的数目,并且每个样本子集可以包括相等数目的样本。所述系统可以包括属性划分器,其被配置为将与每个样本关联的属性划分为属性子集,以供在执行所述比较期间对其进行并行处理。
所述比较可以包括在多个处理核中的每一个处执行的、在每个样本子集的每个样本与每个聚类的中心之间的相似性比较。可以使用包括在每个聚类中的样本的平均属性值来确定每个聚类的中心。所述整合操作器可以被配置为基于所述比较将样本从第一聚类重新指派到第二聚类。合并器可以被配置为合并所述比较的比较结果,以及可以被配置为根据需要使用经合并的比较结果来更新每个聚类的每个中心的值。所述合并器可以被配置为基于被重新指派的样本的数目来确定每个聚类内样本的稳定性。
根据另一个一般方面,一种计算机实现方法可以包括:确定存储在数据库中的具有关联属性的多个样本;确定多个样本聚类;在多个处理核中的每一个处再现所述多个样本聚类。该方法可以包括:将所述多个样本划分为数目与所述多个处理核的数目对应的样本子集;将所述数目的样本子集中的每一个与所述多个处理核中的对应一个关联;以及基于在所述多个处理核的每个对应核处的每个样本子集的每个样本的关联属性,执行所述每个样本相对于在对应处理核处再现的多个样本聚类中的每一个的比较。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于SAP股份公司,未经SAP股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110183886.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置