[发明专利]基于用户行为特征的选择聚类初始点的方法及相关设备在审
申请号: | 201910515534.0 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110413854A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 邓悦;金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 初始点 数据集中 用户行为特征 最小距离 集合 数据集 聚类 群组 聚类模型 循环迭代 用户分组 关联性 分割 申请 保证 | ||
本申请涉及聚类模型领域,提供一种基于用户行为特征的基于用户行为特征的选择聚类初始点的方法及相关设备,所述方法包括:获取待发掘群组的数据集,从所述数据集中选择第一初始点;从所述数据集中选择第二初始点,所述第二初始点是指所述数据集中距离所述第一初始点最远的点;计算所述数据集中每个点与所述第一初始点和所述第二初始点的距离最小的最小距离点集合;从所述最小距离点集合中选择一个最大的最小距离点作为第三初始点,循环迭代得到包括所有初始点的初始点集合;按照所述初始点集合将所述数据集分割为多个存在关联性的群组。通过采用本方案,能够保证用户分组的准确性和效率。
技术领域
本申请涉及聚类模型领域,尤其涉及一种基于用户行为特征的基于用户行为特征的选择聚类初始点的方法及相关设备。
背景技术
聚类是一种无监督的学习方法,其通过一定规则将数据对象按照定义的相似性划分为多个类或簇,在同一个簇中的对象之间具有较高的相似度,不同簇中的对象差别较大。聚类分析主要用于统计学、机器学习、图像分割、数据挖掘和用户分群等领域。
现有的聚类算法用于用户分群时,聚类的初始点为随机选择,而初始点选择不当,则会导致最终的聚类结果陷入局部最优的现象,导致最终的聚类结果较差。
发明内容
本申请提供了一种基于用户行为特征的基于用户行为特征的选择聚类初始点的方法及相关设备,能够解决现有基于用户行为特征的聚类算法中由于选择初始点不当导致用户分群结果陷入局部最优的现象的问题。
第一方面,本申请提供一种基于用户行为特征的选择聚类初始点的方法,所述方法包括:
获取待发掘群组的数据集,所述数据集包括多个用户的行为特征,将一个用户作为一个点;
从所述数据集中选择第一初始点;
从所述数据集中选择第二初始点,所述第二初始点是指所述数据集中距离所述第一初始点最远的点;
计算所述数据集中每个点与所述第一初始点和所述第二初始点的距离最小的最小距离点集合,所述最小距离点集合包括多个最小距离点;
从所述最小距离点集合中选择一个最大的最小距离点作为第三初始点,循环迭代得到包括所有初始点的初始点集合;
按照所述初始点集合将所述数据集分割为多个存在关联性的群组。
在一些可能的设计中,所述第一初始点和所述第二初始点均基于欧式距离的最大最小距离算法得到。
在一些可能的设计中,所述计算所述数据集中每个点与所述第一初始点和所述第二初始点的距离最小的最小距离点集合,包括:
从所述数据集中选取第一候选点;
分别计算所述第一候选点与所述第一初始点的第一距离,以及计算所述第一候选点与所述第二初始点的第二距离;
记录所述第一距离和所述第二距离中最小的距离,将所述第一候选点作为一个最小距离点,分别得到所述数据集中每个候选点相对所述第一初始点和所述第二初始点的最小的距离;
将每个候选点作为一个最小距离点,最终得到所述最小距离点集合。
在一些可能的设计中,所述从所述最小距离点集合中选择一个最大的最小距离点作为第三初始点,循环迭代得到包括所有初始点的初始点集合,包括:
若所述数据集中还剩余n个点,则计算Pk与所述第一初始点的距离D1k,与所述第二初始点的距离D2k;其中,Pk是指n个点中的任意一个点,k为大于1且小于n的正整数;
将所述Pk与所述第一初始点距离最小且与所述第二初始点距离最小的点记为Dk_min=min(nk1,nk2);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910515534.0/2.html,转载请声明来源钻瓜专利网。