[发明专利]结构化数据的聚类无效
申请号: | 200710142715.0 | 申请日: | 2007-08-16 |
公开(公告)号: | CN101127049A | 公开(公告)日: | 2008-02-20 |
发明(设计)人: | 托比亚斯·尼坎普 | 申请(专利权)人: | SAP股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 | 代理人: | 邵亚丽;葛宝成 |
地址: | 德国瓦*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 数据 | ||
技术领域
本公开内容一般涉及用于处理数据集合的基于计算机的机制,更具体地说,涉及用于准确执行对大数据集合的处理的技术。
背景技术
许多信息处理应用涉及对大量对象的统计分级(ranking)或分类(classification)。这些对象通过以关系表(relational table)组织的大量结构化数据来表示,关系表包括属性,属性具有值,一般为数值。属性值描述对象。对象的统计分级或分类基于这些属性的值来执行。
如此理解的对象是业务应用(business application)所特有的,在业务应用中,诸如产品或销售定单的对象具有诸如价格或日期的具有数值的属性,并且描述这些对象的数据一般存储在关系数据库中。出于分类或分级的目的,处理这些对象的应用可能经常需要对对象进行聚类(cluster)。对于大量的对象来说,使用有效的聚类算法以节约执行这些算法所需的计算资源在实际中是非常重要的。
发明内容
一般来说,本文讨论用于聚类结构化数据的系统和方法,以便提供对大量数据集合的搜索的高质量结果。本文中公开的方法是业务对象,但是,也可以容易地适配为针对满足上面介绍的一般特性的其它对象来工作。为简明起见,但不失一般性,本公开内容从业务对象的角度来描述所述方法和算法。
在所述系统和方法的具体实施例中,采用了一种算法,该算法预先假定了基于特定领域知识并针对业务对象定义的相似性模型(similarity model)。相似性模型根据上述属性值定义相似性,所述属性值一般为数值或可简化为数值。一个不是数值但可简化为数值的属性的例子是位置或地址,两个位置之间的距离可以表示为数值。
所述算法使用压缩结构,所述压缩结构使得能够利用比本领域中已知的其它方法更少的计算量提供结果,因此比典型实现方式中的哪些其它方法更快。由所述算法生成的聚类结果可以用图形表示,以便利对它们的评估,这对于将结果显示给业务用户的业务应用来说是显著的益处。
在一方面,一种用于处理数据的计算机实现的方法包括:将包含所述数据的业务对象的集合分组成较小的气泡的集合,每个气泡包括仅提供关于其中的业务对象的统计信息的容器。在一些方面,该方法还包括基于最近邻相似性聚类所述气泡,以及生成聚类后的气泡的可视化。
在另一方面,一种计算机实现的方法包括格式化用于处理的数据的集合,和将包含格式化后的数据的业务对象的集合分组成较小的气泡的集合,每个气泡包括仅提供关于其中的业务对象的统计信息的容器。
在再一方面,提供一种实施在有形媒介上的计算机程序产品。所述计算机程序产品被配置成导致数据处理装置执行操作,包括:格式化用于处理的数据的集合;将包含格式化后的数据的业务对象的集合分组成较小的气泡的集合,每个气泡包括仅提供关于其中的业务对象的统计信息的容器;基于最近邻相似性聚类所述气泡;以及生成聚类后的气泡的可视化。
一个或多个实施例的细节在下面的附图和说明中阐述。通过所述说明、附图以及权利要求书,其它特征和优点将变得明显。
附图说明
这些和其它方方面将参照下述附图来具体描述。
图1是聚类算法的流程图。
图2是数据压缩算法的流程图。
图3是被分组成较小的聚类气泡(bubble)的集合的业务对象集合的图形表示。
图4是聚类算法的流程图。
图5是业务对象的集合的图形表示以及描绘了业务对象的气泡之间的相似性簇(cluster)的图。
不同的附图中相似的参考标记指示相似的元素。
具体实施方式
本文描述了一种系统和方法,用于聚类结构化数据,以提供对大数据集合的高质量结果。为简明起见,但不失一般性,本公开内容从业务对象的角度来描述示例算法,但这里公开的系统和方法也可容易地适配为针对其它对象来工作。
作为最初的要求,基于特定领域知识针对业务对象的集合定义相似性模型。相似性模型根据属性值定义相似性,所述属性值一般为数值或可简化为数值。一个不是数值但可简化为数值的属性的例子是位置或地址,两个位置之间的距离可以表示为数值。
这里公开的系统和方法使用了压缩结构,该压缩结构采用一种其能够利用最少的计算量来提供聚类结果的聚类算法。通过压缩结构产生的聚类结构可以用图形表示,并最终在业务应用中显示给业务用户,以便利他们的评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于SAP股份公司,未经SAP股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710142715.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:步进电机
- 下一篇:掺杂的二硼化镁粉末及其制作方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置