[发明专利]一种基于密度峰和引力影响的半监督游客画像数据聚类方法有效
申请号: | 201811515942.8 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109685122B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 李胜;李唱;何熊熊;常丽萍;姜倩茹;程铖 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 密度 引力 影响 监督 游客 画像 数据 方法 | ||
1.一种基于密度峰和引力影响的半监督游客画像数据聚类方法,其特征在于,所述方法包括以下步骤:
步骤1,通过DPC密度峰聚类算法对由所有游客画像种子标签数据点和无标签数据点组成的全部数据集D,计算数据集D中各个数据点的局部密度值、与高密度点之间距离值,寻找到数据集D中可能为聚类中心的初始聚类中心数据点集M,过程如下:
1.1通过DPC密度峰聚类算法计算数据集D中各数据点的局部密度值ρi、与高密度点之间的距离值δi的表达形式为
其中,式(1)中dc是截断距离,i、j都表示为数据集D中任意一个数据点的标号,w表示数据集D的所有数据点个数,dij是数据集D中第i个数据点和第j个数据点之间的距离,ρi表示在数据集D中所有与第i个数据点之间的距离小于截断距离dc的数据点的个数;式(2)中,δi表示在所有比第i个数据点的局部密度都大的数据点中,与第i个数据点之间距离最小的距离值;
1.2在数据集D中可能为聚类中心的数据点集的特征表达形式为
γi=ρiδi (3)
其中,γi是第i个数据点作为聚类中心点的选择标准,γi值越大表示第i个数据点作为聚类中心点的可能性越大;
步骤2,利用旅游景点提供的种子标签数据信息计算与步骤1中得到的初始聚类中心数据点集M之间的点点间距离,投票筛选出最终精确的聚类中心点集合C,过程如下:
2.1计算种子标签数据点到初始聚类中心数据点集M中任意一点的距离,其距离表示为
其中,式(4)中s表示种子标签数据集中任意一个种子标签数据点;m表示由步骤1得到的初始聚类中心数据点集M中任意一个疑存聚类中心点;d(s,m)表示种子标签数据点s与初始聚类中心数据点m之间的欧式距离;n是单个数据的维度;t表示数据维度中的第t维;
2.2根据式(4)计算出来的所有种子标签数据点与疑存聚类中心数据点间距离值d(s,m),寻找出到初始聚类中心数据点集M中每一个疑存聚类中心数据点距离最小的种子标签数据点s,并把当前的种子标签数据点s的簇标签cl赋给当前的初始聚类中心数据点m,通过投票筛选出最终精确的聚类中心点集合C;
步骤3,从所有种子标签数据点中随机选取一定比例的种子数据子集,引入万有引力定律的理念计算种子数据子集与无标签数据中各个数据点间的引力影响度,对所有无标签数据中各点贴上相应的簇标签cl,过程如下:
3.1从所有种子标签数据点中按70%比例随机50次选取种子数据子集S,第i次随机选取的种子数据子集结果计作Si;
3.2种子标签数据点与无标签数据点间的引力影响度分别表示为
其中,s是种子数据子集S中的任意一个种子标签数据点;u是无标签数据中任意一个无标签数据点;式(5)中,k为引力影响度系数取值为1,ρs是种子标签数据点s的局部密度,ρu是无标签数据u的局部密度,d(s,u)2代表数据点s与数据点u之间的欧氏距离二次方;式(6)中,n表示数据的维度即n维数据,st表示数据点s的第t维数据值,ut表示数据点u的第t维数据值;
3.3根据步骤3.2中式(5)、式(6)计算出来的每一个无标签数据点与每一个种子标签数据点间的引力影响度,计算同簇的种子标签数据点对每一个无标签数据点的综合引力影响度,具体表达形式如下
其中,式(7)中ci是由步骤2得到的精确聚类中心集合C中的第i个簇中心,s∈ci表示在种子数据子集S中与聚类中心点ci属于同一簇的全部种子标签数据点,G(u,ci)表示在数据子集S中所有与聚类中心点ci同簇的种子标签数据点对无标签数据点u的综合引力影响度;
步骤4,通过多次随机选取种子数据子集S,重复步骤3.2、步骤3.3给无标签数据点贴上相应的决策簇标签cl,投票选出得票数最多的簇标签cl最终赋给各个无标签数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811515942.8/1.html,转载请声明来源钻瓜专利网。