[发明专利]一种人群聚类的方法及装置在审
申请号: | 201510981957.3 | 申请日: | 2015-12-23 |
公开(公告)号: | CN106910079A | 公开(公告)日: | 2017-06-30 |
发明(设计)人: | 杨诗;向园;洪春晓;吕俊 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
代理公司: | 北京华沛德权律师事务所11302 | 代理人: | 房德权 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人群 方法 装置 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种人群聚类的方法及装置。
背景技术
随着网络技术的发展,人们在网络上留下了各种操作痕迹,例如人们会根据自己的需要在网络上购买商品,也会点击网页中的广告并购买商品等等,这些所有的操作痕迹,包括用户留下的个人信息如年龄信息、性别信息等等,都会被搜录到相应的大数据中,以对人群的消费倾向进行分析。
目前,通常使用聚类算法对这类大数据进行分析来获得人群的消费倾向,从而为企业的产品生产提供数据支持,例如,在对样本集S{S1,S2,S3…Sn}中的样本进行聚类时,采用如下第一种方案:在K次迭代中,对于任意一个样本Si,求其到聚类中心集M{M1,M2…Mj…Mk}中各个聚类中心点的距离,将该Si划分到距离最近的聚类中心点所在的类集中;利用均值的方法,更新聚类中心集M中的聚类中心点;计算本次迭代产生的类集与上次迭代产生的类集之间的差值,直到该差值满足预置误差条件为止。
此方法在进行计算聚类中心点的聚类集时,需要将样本集S中的每个样本分别与聚类中心集M中的每个聚类中心点进行距离计算,即需要进行n*k次点对点的距离计算,计算量较大,耗时较长。
为了解决上述第一种方案存在的计算量大,耗时较长的问题目前现有技术中还提供了第二种方案,该方案相对于第一种方案将Si划分到距离最近的聚类中心点所在类集的操作过程进行了改进,改进的方案具体如下:计算聚类中心集M{M1,M2…Mj…Mk}中任意两个聚类中心点之间的距离,并保存;通过三角形不等式原理,即计算Luj与2Lui之间的距离,其中,Luj为聚类中心 点Mu与聚类中心点Mj之间的距离,其中,聚类中心点Mu为Si与当前距离Si最近的聚类中心点,聚类中心点Mj为当前遍历过程中待遍历的的聚类中心点,Lui为Si与聚类中心点Mu之间的距离;若Luj大于或者等于2Liu,忽略掉聚类中心点Mj,并继续遍历下一个聚类中心点,或者,遍历完成后,将该Si划分到Mu所在的类集中;若Luj小于2Liu,则计算Si与Mj之间的距离Lij,其中,Lij为样本点Si与聚类中心点Mj之间的距离;当Lij小于Lui时,设置Lui=Lij,Mu=Mj,继续遍历下一个聚类中心点,或者,遍历完成后,将该Si划分到Mu所在的类集中。
通过上述两种方案,即能够通过对大数据进行聚类而获得大数据中的聚类信息,但是,在实施第二种方案时,发明人发现其存在如下问题:在判断某个聚类中心点是否为样本的聚类中心点时,在确定出样本Si与聚类中心集M中最近的聚类中心点Mu之后,基于三角形不等式原理,将聚类中心集M中不可能是Si的聚类中心点进行丢弃,无需计算丢弃的聚类中心点与样本Si之间的距离,能够在一定程度上降低计算量,缩短计算时长;但是,对于一些聚类中心点较多,聚类更精细的需求而言,由于每次迭代过程均需要计算聚类中心点两两之间的距离,导致计算量较大,耗时较长。
因此,现有技术中聚类算法存在因每次迭代过程均需要计算聚类中心点两两之间的距离而导致计算量较大,耗时较长的技术问题。
发明内容
本发明实施例通过提供一种人群聚类的方法及装置,用以解决现有技术中聚类算法存在的因每次迭代过程均需要计算聚类中心点两两之间的距离而导致计算量较大,耗时较长的技术问题。
本发明实施例第一方面提供了一种人群聚类的方法,其特征在于,包括:
获得针对人群的样本集以及所述样本集的聚类中心集,所述样本集中每个样本点包括人群中对应的个人的描述信息,所述描述信息至少包括年龄信息、 性别信息、爱好信息和消费金额信息;
针对所述样本集中的每一个样本点,依次遍历聚类中心集中的每一个聚类中心点,确定所述每一个样本点与所述聚类中心集中距离最近的聚类中心点,并将所述每一个样本点划分到所述聚类中心集中距离最近的聚类中心点对应的集合中,获得所述聚类中心集中的每一个聚类中心点对应的聚类集;
获得所述聚类集中样本点的平均值,并根据所述平均值更新所述聚类中心集;
根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510981957.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种粮食水分在线检测电路
- 下一篇:筏钓渔线轮自动排线器