[发明专利]一种基于密度峰和引力影响的半监督游客画像数据聚类方法有效

专利信息
申请号: 201811515942.8 申请日: 2018-12-12
公开(公告)号: CN109685122B 公开(公告)日: 2020-12-01
发明(设计)人: 李胜;李唱;何熊熊;常丽萍;姜倩茹;程铖 申请(专利权)人: 浙江工业大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于密度峰和引力影响的半监督游客画像数据聚类方法,通过密度峰算法计算游客画像数据各点的密度值和距离值,寻找到所有可能的聚类中心点;利用提供的游客画像种子点计算与可能的聚类中心点间的距离,投票筛选出精确的聚类中心点,并且利用种子标签信息给对应的聚类中心点贴上聚类标签;从全部的种子数据中随机选取一定比例的种子数据子集,通过引用万有引力定律的理念,计算种子数据子集与各个无标签数据点间的引力影响,从而对所有无标签数据进行聚类并为无标签数据贴上相应的簇标签;通过多次随机选取种子数据子集给无标签数据贴上相应的决策簇标签,投票选出最终各个无标签数据的簇标签信息。本发明聚类效果较好、精确度较高。
搜索关键词: 一种 基于 密度 引力 影响 监督 游客 画像 数据 方法
【主权项】:
1.一种基于密度峰和引力影响的半监督游客画像数据聚类方法,其特征在于,所述方法包括以下步骤:步骤1,通过DPC密度峰聚类算法对由所有游客画像种子标签数据点和无标签数据点组成的全部数据集D,计算数据集D中各个数据点的局部密度值、与高密度点之间距离值,寻找到数据集D中可能为聚类中心的初始聚类中心数据点集M,过程如下:1.1通过DPC密度峰聚类算法计算数据集D中各数据点的局部密度值ρi、与高密度点之间的距离值δi的表达形式为其中,式(1)中dc是截断距离,i、j都表示为数据集D中任意一个数据点的标号,即数据集D中第i个数据点、第j个数据点,w表示数据集D的所有数据点个数,dij是数据集D中第i个数据点和第j个数据点之间的距离,ρi表示在数据集D中所有与第i个数据点之间的距离小于截断距离dc的数据点的个数;式(2)中,δi表示在所有比第i个数据点的局部密度都大的数据点中,与第i个数据点之间距离最小的距离值;1.2在数据集D中可能为聚类中心的数据点集M的特征表达形式为γi=ρiδi                             (3)其中,γi是第i个数据点作为聚类中心点的新选择标准,γi值越大表示第i个数据点作为聚类中心点的可能性越大;步骤2,利用旅游景点提供的种子标签数据信息计算与步骤1中得到的初始聚类中心数据点集M之间的点点间距离,投票筛选出最终精确的聚类中心点集合C,过程如下:2.1计算种子标签数据各点到数据集M中任意一点的距离,其距离表示为其中,式(4)中s表示种子标签数据集中任意一个种子数据点;m表示由步骤1得到的初始聚类中心数据点集M中任意一个疑存聚类中心点;d(s,m)表示种子数据点s与初始聚类中心数据点m之间的欧式距离;n是单个数据的维度;t表示数据维度中的第t维特征值;2.2根据式(4)计算出来的所有种子数据点与疑存聚类中心数据点间距离值d(s,m),寻找出到数据集M中每一个疑存聚类中心点m距离最小的种子数据点s,并把当前的种子数据点s的簇标签cl赋给当前的聚类中心点m,通过投票筛选出最终精确的聚类中心点集合C;步骤3,从所有种子标签数据点中随机选取一定比例的种子数据子集,引入万有引力定律的理念计算种子数据子集与无标签数据中各个数据点间的引力影响度,对所有无标签数据中各点贴上相应的簇标签cl,过程如下:3.1从所有种子标签数据点中按70%比例随机50次选取种子数据子集S,第i次随机选取的种子子集结果计作Si;3.2种子标签数据点与无标签数据点间的引力影响度分别表示为其中,s是种子数据子集S中的任意一个种子数据点;u是无标签数据中任意一个无标签数据点;式(5)中,k为引力影响度系数取值为1,ρs是种子数据点s的局部密度,ρu是无标签数据u的局部密度,d(s,u)2代表数据点s与数据点u之间的欧氏距离二次方;式(6)中,n表示数据的维度即n维数据,st表示数据点s的第t维数据值,ut表示数据点u的第t维数据值;3.3根据步骤3.2中式(5)、式(6)计算出来的每一个无标签数据点与每一个种子数据点间的引力影响度,计算同簇的种子点对每一个无标签数据点的综合引力影响度,具体表达形式如下其中,式(7)中ci是由步骤2得到的精确聚类中心集合C中的第i个簇中心,s∈ci表示在种子数据子集S中与聚类中心点ci属于同一簇的全部种子数据,G(u,ci)表示在数据子集S中所有与聚类中心点ci同簇的种子点对无标签数据点u的综合引力影响度;步骤4,通过多次随机选取种子数据子集S,重复步骤3.2、步骤3.3给无标签数据点贴上相应的决策簇标签cl,投票选出得票数最多的簇标签cl最终赋给各个无标签数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811515942.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top