[发明专利]一种混合聚类方法和装置有效
申请号: | 201410040796.3 | 申请日: | 2014-01-28 |
公开(公告)号: | CN104809136B | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 刘军;冯兴;周继恩 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 臧霁晨;汤春龙 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合 方法 装置 | ||
本发明涉及一种混合聚类方法和装置。一种混合聚类方法,包括:输入聚类参数;如果更新类型为全量更新,那么删除聚类结果中对应的组;输入满足过滤条件的对象,对每个对象进行混合聚类,生成聚类的组名,输出聚类的组和对象列表;输入聚类的组和对象列表,丢弃对象数小于最小对象数的组,添加其余的组和对象到聚类结果中。
技术领域
本发明涉及数据挖掘,更特别地,本发明涉及数据挖掘领域中的聚类(cluster)。
背景技术
数据挖掘是数据库知识发现(Knowledge-Discovery in Databases)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘的方法包括监督式学习、非监督式学习、关系分组(Affinity Grouping)与购物篮分析(MarketBasket Analysis)、聚类(Clustering)与描述。
其中,聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个组别或子集中的成员对象都有相似的一些属性。由聚类所生成的组别或子集是一组数据对象的集合,这些对象与同一个组别或子集中的对象彼此相似,与其他组别或子集中的对象相异。
传统的聚类已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的情况。高维聚类分析已成为聚类分析的一个重要研究方向。同时高维数据聚类也是聚类技术的难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web 文档、基因表达数据等,它们的维度(特征)通常可以达到成百上千维,甚至更高。但是,受“维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。高维数据聚类分析是聚类分析中一个非常活跃的领域,同时它也是一个具有挑战性的工作。目前,高维数据聚类分析在市场分析、信息安全、金融、娱乐、反恐等方面都有很广泛的应用。
最近几年,局部敏感哈希(Locality-Sensitive Hash,LSH)技术日益兴起并且被用于聚类。哈希(Hash)本质上是一个映射函数。而与传统哈希技术的关注点是如何使映射尽可能地随机均匀分布不同(例如,MD5算法保证两个不同文本的MD5签名不同,此外并不能提供更多额外的信息),局部敏感哈希将两个相似的内容映射为相近的签名,即,这也正是“局部敏感”的意义所在。如果两个文本只相差一个字节,MD5签名值会相差很大,但LSH值会很接近。
目前常用的两种LSH是:simhash和minhash。谷歌公司于2006进行了大量的评估以比较simhash和minhash的性能。2007年,谷歌公司报道了:使用simhash用于网页去重,而使用minhash 用于谷歌新闻个性化服务。
在聚类中,聚类的特征变量通常包括“性别”、“年龄段”、“城市”等枚举型特征变量和“爱好”、“标签”等数值型特征变量。一方面,SQL(Structed Query Language)中BY GROUP方法是根据枚举型特征变量的值进行精确分组;而另一方面,minhash等聚类方法是按相似度来分组,但minhash聚类的结果并不能保证枚举型特征变量的精确划分。而且,传统的聚类技术通常在一次聚类的基础上,再进行其他的聚类,来满足最终的聚类要求。在亿级对象的情况下,运行需要数十小时,效率较低。
同时,在选择不同的特征变量对对象进行聚类后,会有多种聚类结果并存的情况,这就需要对聚类结果的存储及更新进行管理。传统的聚类结果的存储及更新独立于聚类方法本身而存在。
本发明的目的就是针对上述问题,提出一种混合聚类方法和装置。
发明内容
根据本发明的一个方面,提出了一种混合聚类方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410040796.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光伏组件边框和光伏组件
- 下一篇:幕墙式太阳能光伏组件