[发明专利]基于聚类算法的卷烟零售客户分类模型在审
申请号: | 201911194649.0 | 申请日: | 2019-11-28 |
公开(公告)号: | CN111144927A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 黄飞杰;郎旭明;左少燕;肖骏;尹建康;贺红梅;张卫东;宋红文;欧达宇;唐靖;赵黎鸣 | 申请(专利权)人: | 广西中烟工业有限责任公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 卓邦荣;史炜炜 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 算法 卷烟 零售 客户 分类 模型 | ||
1.基于聚类算法的卷烟零售客户分类模型,其特征在于,算法步骤如下:
(1)、将前期预处理后的数据集导入到matlab工作区中,并进行归一化处理,得到算法输入数据集;
(2)、从输入数据集中随机抽取样本集;
(3)、针对样本集随机生成一个初始聚类中心;
(4)、分别用除初始聚类中心以外的数据点替代初始聚类中心,并计算每一次替代后相应的代价和时间;
(5)、选取最小代价和时间情况下的替代方式,生成新的聚类中心;
(6)、将新的聚类中心与初始聚类中心对比,并输出最终聚类中心;
(7)、将最终聚类中心作为整个输入数据集的聚类中心,并计算当前的总误差;
(8)、循环(3)~(7)步骤,选取总误差最小情况下的聚类中心;
(9)、将总误差最小情况下的聚类中心作为K-means算法的初始聚类中心;
(10)、计算数据集中所有数据点分别到K-means算法的初始聚类中心的误差值;并分配类别;
(11)、分配类别后,获得若干类,并在每一类中,计算该类中平均值作为分类聚类中心;
(12)、判断分类聚类中心与K-means算法的初始聚类中心是否相同,
(a)若相同,则迭代终止,输出此时的聚类情况;
(b)若不同,则继续重复循环(10)、(11)步骤,直至聚类中心不再发生变化为止;
(13)、结束程序。
2.如权利要求1所述的基于聚类算法的卷烟零售客户分类模型,其特征在于,将新的聚类中心与初始聚类中心对比如下:
(1)若前后聚类中心保持不变,则输出最终聚类中心;
(2)若前后聚类中心产生变化,重复权利要求1中的(4)和(5)步骤,进行进一步聚类中心替代循环,直至聚类中心不再发生变化为止。
3.如权利要求1所述的基于聚类算法的卷烟零售客户分类模型,其特征在于,在进行归一化处理中,对于每一个属性j下,运行归一化公式:
Ni(j)代表第i个样本第j个属性归一化的数值;
min(C(j))代表所有样本第j个属性的最小值;
max(C(j))代表所有样本第j个属性的最小值;
Ci(j)代表第i第i个样本第j个属性值。
4.如权利要求1所述的基于聚类算法的卷烟零售客户分类模型,其特征在于,所述从输入数据集中随机抽取样本集;具体为,从输入数据集中随机抽取40+2K的样本集,随机抽取方法是以随机数的形式将输入数据集顺序打乱,取打乱后数据中的前40+2K个数据集作为样本。
5.如权利要求1所述的基于聚类算法的卷烟零售客户分类模型,其特征在于,所述40+2K为确定样本数量的经验公式;K代表聚类的类别数。
6.如权利要求1所述的基于聚类算法的卷烟零售客户分类模型,其特征在于,所述选取总误差最小情况下的聚类中心,总误差采用欧式距离进行计算,具体如下;
其中:
dist为欧氏距离;
N(j)代表第j个样本点数据;
Centers(i)代表第i个聚类中心点数据。
7.如权利要求1所述的基于聚类算法的卷烟零售客户分类模型,其特征在于,所述的分配类别是根据误差值最小原则,分配类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西中烟工业有限责任公司,未经广西中烟工业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911194649.0/1.html,转载请声明来源钻瓜专利网。