[发明专利]一种划分客户群集的计算机实现的方法和系统有效
申请号: | 201110080939.X | 申请日: | 2011-03-31 |
公开(公告)号: | CN102737327A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 张斌;谢明;尹文君;董进;杰奎琳.G.莫里斯;曹恒 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 黄小临 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 划分 客户 群集 计算机 实现 方法 系统 | ||
技术领域
本发明涉及对数据库的数据分析,尤其涉及对商业数据库进行数据挖掘,针对不同的应用,对商家的客户进行聚类。
背景技术
在商业实践中,商家希望能识别客户的特征,以便对客户进行有效的管理。商家为了有效地开展业务,需要挖掘和分析客户的特征,为此,常常需要采用聚类(clustering)技术来的分析其在数据库中存储的客户数据。
聚类技术广泛应用于统计学、模式识别、机器学习、电信服务等技术领域。采用计算机技术和聚类技术,可以将一个数据库中的大量数据记录划分成K个(K为整数)群集(groupings)或聚类(cluster)。每个群集中的一个数据记录与该群集中的另一个数据记录的相似度,大于与其它群集中的数据记录的相似度。聚类技术采用的常用算法包括:K均值聚类(K-means Clustering)算法,PAM算法等等。
商家采用聚类技术,可以对数据库的客户记录进行聚类,即把客户记录(或客户)划分为不同的群集,进而总结各个群集中的客户的相似特征,由此能针对不同的客户群集,提供相适应的服务。
在有些应用中,假设在运行聚类过程之前,聚类产生的群集的数目(通常记为整数K)是已知的。在有些现实应用中,在运行聚类过程之前,群集的数目是未知的,需要试探用不同的K来运行聚类过程,最后根据一定的聚类标准来确定K的值,以及采用该K运行聚类过程所获得的聚类结果。
聚类算法的复杂度,与数据库中数据记录的个数有关,与每个数据记录包含的属性个数有关,与聚类产生的群集的数目K的大小有关,与群集的数目K事先是否已知有关。采用聚类技术对数据库的客户记录进行聚类的过程,通常需要运行许多小时,甚至几天。如何在具体应用中提高对数据库的客户记录进行聚类的效率,对于商家来说非常重要。
发明内容
本发明的一个目的是改进现有技术中划分客户群集的方法。
一方面,本发明提供一种用于划分客户群集的计算机实现的方法和系统。该方法包含:接收一个原始客户记录集合,其中,客户记录集合中的每个客户记录代表一个客户,每个客户记录包含至少一个数据属性,每个数据属性有一个属性值;对原始客户记录集合进行预处理,以生成预处理后的客户记录集合;对预处理后的客户记录集合执行一个聚类算法,将预处理后的客户记录集合划分成预定个数的群集。其中,所述预处理包含:确定原始客户记录集合中的每个客户记录所代表的客户的类型;在相应的客户记录中用一个类型属性表示该客户的类型;对数据属性和类型属性的值进行归一化;对数据属性的值和类型属性的值分别加权,获得数据属性的加权属性值和类型属性的加权属性值。
另一方面,本发明还提供一种用于划分客户群集的系统,包含:接收装置,被配置为接收一个原始客户记录集合,其中,客户记录集合中的每个客户记录代表一个客户,每个客户记录包含至少一个数据属性,每个数据属性有一个属性值;预处理装置,被配置为对原始客户记录集合进行预处理,以生成预处理后的客户记录集合;聚类装置,被配置为对预处理后的客户记录集合执行一个聚类算法,将预处理后的客户记录集合划分成预定个数的群集。其中,所述预处理装置包含:类型表示装置,被配置为确定原始客户记录集合中的每个客户记录所代表的客户的类型,在相应的客户记录中用一个类型属性表示该客户的类型;归一化装置,被配置为对数据属性和类型属性的值进行归一化;加权装置,被配置为对数据属性的值和类型属性的值分别加权,获得数据属性的加权属性值和类型属性的加权属性值。
与现有技术相比,本发明的方法和系统降低了计算复杂度,并且能灵活调整聚类结果的群集组合的散度和纯度。
附图说明
发明内容部分和所附权利要求中阐述了被认为是本发明的特点的创造性特征。但是,通过参照附图阅读下面对示例性实施例的详细说明可更好地理解发明本身以及其使用模式、另外的目标、特征以及优点,在附图中:
图1表示对一个客户集合进行聚类产生的群组组合的示意图;
图2示意性表示一种现有技术的方法为客户划分群集的过程的流程图;
图3A和3B示意性表示按照本发明方法的一个实施例为客户划分群集的过程的流程图;
图4A-4I示意性表示按照本发明的实施例对原始客户记录集合进行的预处理;
图5表示按照本发明一个实施例执行的K均值聚类算法的流程图;
图6A-6E例示按照本发明一个实施例执行K均值聚类算法过程中的数据处理;
图7示意性表示按照本发明实施例的用于为客户划分群集的系统的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110080939.X/2.html,转载请声明来源钻瓜专利网。