[发明专利]用于对产生于数据库的数据群集的方法和系统无效
申请号: | 200980157064.X | 申请日: | 2009-12-21 |
公开(公告)号: | CN102326160A | 公开(公告)日: | 2012-01-18 |
发明(设计)人: | H·本哈达 | 申请(专利权)人: | 塔莱斯公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 王英;刘炳胜 |
地址: | 法国耐伊市*** | 国省代码: | 法国;FR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生于 数据库 数据 群集 方法 系统 | ||
本发明的主题特别地涉及使得对采取关系矩阵的形式的数据实施群集成为可能的方法和系统,也就是说在这一数据库的对象Oi或数据之间存在关系。本发明还可以对矩形阵列进行处理,其生效的范围是总是有可能通过计算原始阵列的对象之间的相似性的测量值而由矩形阵列(对象×属性)导出方阵列。
可以将本发明用于自动分类(更为人熟知的称谓是“群集(clustering)”)领域。由其可以将其应用于这样的情况,其中,有待群集的数据采取关系矩阵(有待群集的对象之间的关系)的形式并且实际上允许非常灵活的图形或相依性网络的表现形式。
在自动数据分类领域,所要解决的问题在于,从含有与n个对象或个体Oi相关的非常大的量的数据(数量级为数十万或数百万)的数据库开始对这些数据非常快速地分类。这些数据通常采取两种类型的阵列(或矩阵)的形式:矩形矩阵(对象×针对这些对象测得的属性)或方形矩阵(对象×对象),后者表现了对象之间的关系。群集的目的在于,在这些矩阵的基础上构建具有强描述(对个体的描述)相似性和/或行为相似性的相干对象的群。
在数据采取方形矩阵的形式时,它们往往表示数据库的对象之间的相似性或接近性的测度。其后的目的在于寻求发现由总体到数量有限得多的对象(相似的或者具有相同的行为的)类别(或群集)的最佳自动分解,尔后根据所涉及的领域定义动作(action)策略。例如,可能的动作之一是找到故障,从而使得预测计算机网络中的其他故障成为可能。另一个例子在于找到银行的客户集合,对于所述客户有可能向其推荐某些产品并且他们具有很高的做出肯定答复的概率。另一个动作是找到保险公司客户的适当定位,对于所述客户有可能建立特殊保险政策,这些政策是非先验的、无法明显界定的等等。找到这些类别的主要困难之一是由这样一个事实导致的,即,尽管在处理器的计算能力和当前计算机的存储容量方面取得了进展,但是所存储的数据也具有前所未见的规模,或者占据日见庞大的存储空间,因此以合理的处理时间对数据库的对象进行群集是非常困难的。当可用数据采取表现对象之间的关系的方形矩阵时,这一点更为现实。
现有技术中已知各种自动分类过程。因而,有可能引用k-means、分级群集或其他关系分析过程。
由本申请人提交的专利申请EP 1960916描述了一种群集方法,其中,原始数据采取表格的形式,表格的行是有待群集的个体,列是针对这些个体测量的变量。
尽管现有技术过程提供了良好的结果,但是值得注意的是它们显露出了下述缺点:
1)出现对所要采用以初始化划分的分类和引用(中心)的数量是固定的问题。实际上,k-means型的过程(例如)按照先验的任意方式固定要在数据中找到的类别的数量以及被认为是初始类别的中心的几个初始个体;
2)对于分级群集过程而言,以先验的任意方式固定树状图表的截止限幅的问题,
3)在数据采取关系数据的方式时不可能在合理的时间内按照线性的方式处理巨量的数据。
因而,通常的群集过程一方面不可能按照线性的方式处理图形或关系类型的数据,另一方面它们严重依赖于参数的固定,例如,所述参数是所要找到的类别的数量或者中心(根据任意数学绘图(draw)或按照任意方式从总体中选出的对象)。
根据本发明的方法特别地基于一种关系分析理论,其体现出了这样一种优点,即,无需做出与群集处理的预期结果相关的任意先验假设。
根据本发明的系统和方法提出了一种新的采用所要处理的关系矩阵的行的方案,并且有可能凭借这些表示在快速的时间内处理非常大的量的数据,同时既降低必要的存储空间又减少计算时间。
本发明涉及一种用于对采取了阵列S的形式的数据或对象Oi、Oj进行群集的方法,所述阵列中的每一个元对应于存在于所述对象Oi、Oj之间的相似性的值sij,所述方法是在与含有所要群集的数据或对象的数据库链接的包括工作存储器、处理器的计算机内实现的,所述方法的特征在于其至少包括下述步骤:
1)按照下述方式确定对象类别的数量k:
取得与其他对象Oj相比具有最少的可能的相似性sij的对象Oi,也就是说,对于该对象而言其剖析(profile)的分量之和是最小的,将个体Oi放到第一类别C1中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔莱斯公司,未经塔莱斯公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980157064.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种竹条压丝压碎机
- 下一篇:容器填装液态食品的制造方法及其制造装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置