[发明专利]一种基于聚类分析的客户分群实现方法在审
申请号: | 201911421024.3 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159258A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 吴炎泉;陈思恩;杨紫胜;廖雅哲 | 申请(专利权)人: | 科技谷(厦门)信息技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06Q30/02;G06K9/62 |
代理公司: | 厦门致群专利代理事务所(普通合伙) 35224 | 代理人: | 刘兆庆;邓贵琴 |
地址: | 361006 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 聚类分析 客户 分群 实现 方法 | ||
1.一种基于聚类分析的客户分群实现方法,其特征在于,包括以下步骤:
S1、建立标签画像系统,所述标签画像系统采用宽表形式存储,其包含有一组客户标签,所述客户标签包括连续型标签和类别型标签;
S2、获取待分群的客户数据集;
S3、基于业务背景,在标签画像系统里的标签列表中选择客户标签,生成初始客户标签库;
S4、配置聚类数目K,并选择是否对初始客户标签库的标签进行降维;
S5、利用主成分分析法对待分析客户标签库中的连续型标签进行降维处理,对类别型标签进行One-Hot编码,生成最终客户标签库;
S6、基于最终客户标签库,建立聚类分析模型,利用k-means++算法进行聚类分析,生成聚类结果并进行展示,所述聚类结果包括聚类后的各群体数量以及各群体标签的中心值。
2.如权利要求1所述的一种基于聚类分析的客户分群实现方法,其特征在于,步骤S1中所述的建立标签画像系统具体为:创建HBase表,然后将HBase表映射到Hive表。
3.如权利要求1或2所述的一种基于聚类分析的客户分群实现方法,其特征在于,步骤S5中所述的降维处理通过以下方法实现:
S51、对初始客户标签库中的连续型标签作为原始变量,进行进行标准化处理,令:
将p个原始变量X1,X2,…,Xp的总方差分解成p个相互独立的变量Y1,Y2,…,Yp的方差之和;
S52、建立贡献率计算模型如下:
其中,为变量Y1,Y2,…,Ym的的累计贡献率,m为选取的主成分变量的数量,mp;
S53、基于预先设定的贡献率阈值,利用所述贡献率计算模型计算累计贡献率达到贡献率阈值时的m值;
S54、根据获得的主成分变量的数量m值,得到:
其中,Yi为经降维处理后最终得到的连续型标签。
4.如权利要求1或2所述的一种基于聚类分析的客户分群实现方法,其特征在于,步骤S6中所述的利用k-means++算法进行聚类分析通过以下方法实现:
S61、选取k个聚类中心;
S62、针对客户数据集中的每个数据点,计算其到k个中心点的距离,并将其与距离最近的中心点关联,与同一中心点关联的所有数据点聚类成一组;
S63、计算每一组数据点的均值,并将该组对应的中心点移动到均值的位置;
S64、重复步骤S62、S63,直至中心点不再变化。
5.如权利要求4所述的一种基于聚类分析的客户分群实现方法,其特征在于,步骤S61中所述的选取k个聚类中心通过以下方法实现:
随机选取第一个聚类中心;
假定已经选取了n个聚类中心,0nk,则在选取第n+1个聚类中心时,距离当前n个聚类中心越远的点具有更高的选中概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科技谷(厦门)信息技术有限公司,未经科技谷(厦门)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911421024.3/1.html,转载请声明来源钻瓜专利网。