[发明专利]一种基于密度峰和引力影响的半监督游客画像数据聚类方法有效
申请号: | 201811515942.8 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109685122B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 李胜;李唱;何熊熊;常丽萍;姜倩茹;程铖 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 密度 引力 影响 监督 游客 画像 数据 方法 | ||
一种基于密度峰和引力影响的半监督游客画像数据聚类方法,通过密度峰算法计算游客画像数据各点的密度值和距离值,寻找到所有可能的聚类中心点;利用提供的游客画像种子点计算与可能的聚类中心点间的距离,投票筛选出精确的聚类中心点,并且利用种子标签信息给对应的聚类中心点贴上聚类标签;从全部的种子数据中随机选取一定比例的种子数据子集,通过引用万有引力定律的理念,计算种子数据子集与各个无标签数据点间的引力影响,从而对所有无标签数据进行聚类并为无标签数据贴上相应的簇标签;通过多次随机选取种子数据子集给无标签数据贴上相应的决策簇标签,投票选出最终各个无标签数据的簇标签信息。本发明聚类效果较好、精确度较高。
技术领域
本发明涉及一种基于密度峰和引力影响的半监督游客画像数据聚类方法,特别是指一种在密度峰和引力影响的基础上融合游客画像种子标签信息的半监督游客画像数据聚类方法。
背景技术
所谓聚类,就是把相似的事物聚集在一起,而将相异的事物划分到不同的类别的过程。在无监督学习中,聚类是一种极其重要的学习方法。作为统计学的一个分支,聚类学习广泛应用于各种行业领域,在这些领域甚至包括机器学习、数据挖掘、图像处理、智慧旅游、模式识别分析等当前热门领域。正是由于聚类学习是一种极其重要的学习方法,在过去的几十年里相关学者提出了大量的聚类算法,包括K均值聚类、均值漂移聚类、基于密度的聚类方法、用高斯混合模型的最大期望聚类、凝聚层次聚类、图团体检测等聚类方法。2014年在《Science》上发表的DPC密度峰聚类算法,该算法简单高效,不需像k-means聚类算法对聚类过程不断迭代,也无需如DBSCAN聚类算法引入敏感的参数,可以自动寻找出聚类中心。
半监督聚类是在无监督聚类的基础上融合部分已知的标签信息。半监督聚类的目的在于利用部分的先验知识(例如种子标签数据)找到数据集的适当结构。它的一个显著特点可以使用初始种子标签数据和无标签数据的簇别对数据进行分组,以便修改反馈数据中整个规则的现有簇别集,提高整体数据的聚类精确度。
万有引力定律是物体间相互作用的一条定律。任何物体之间都有相互吸引力,这个力的大小与各个物体间的质量成正比,而与它们之间的距离成反比。如果用m1、m2分别表示物体1与物体2的质量,r表示这两个物体之间的距离,则物体1和物体2之间的相互吸引力F表示为F=(Gm1m2)/r2,其中G称为万有引力常数。
发明内容
为了克服现有DPC密度峰聚类方法的需要人为的通过决策图选取相关聚类中心点的不足,人工选取的聚类中心点无法准确铺捉到精确的聚类中心,对于每个簇只存在唯一的密度峰有效,相反对于簇中存在多个密度峰时聚类的效果很差;现有DPC密度峰聚类算法的聚类方差为零,在某一个数据点被分错簇别的情况下,其它跟随的它的数据点也会被分错簇别,进而产生了多米诺骨牌效应,降低聚类的精确度,本发明提供一种聚类效果较好、精确度较高的基于密度峰和引力影响的半监督游客画像数据聚类方法,在实际应用场景即旅游景区提供的游客画像数据中存在部分已知的相关聚类信息,充分利用已知游客画像种子簇标签信息求解未知游客画像数据的簇标签信息。
为了解决上述技术问题提出的技术方案如下:
一种基于密度峰和引力影响的半监督游客画像数据聚类方法,所述方法包括以下步骤:
步骤1,通过DPC密度峰聚类算法对由所有游客画像种子标签数据点和无标签数据点组成的全部数据集D,计算数据集D中各个数据点的局部密度值、与高密度点之间距离值,寻找到数据集D中可能为聚类中心的初始聚类中心数据点集M,过程如下:
1.1通过DPC密度峰聚类算法计算数据集D中各数据点的局部密度值ρi、与高密度点之间的距离值δi的表达形式为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811515942.8/2.html,转载请声明来源钻瓜专利网。