[发明专利]一种基于用户偏好与项目属性的聚类初始点选择方法有效

专利信息
申请号: 201410035844.X 申请日: 2014-01-24
公开(公告)号: CN103793504B 公开(公告)日: 2018-02-27
发明(设计)人: 宿红毅;王彩群;闫波;郑宏 申请(专利权)人: 北京理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京理工正阳知识产权代理事务所(普通合伙)11639 代理人: 唐华
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 用户 偏好 项目 属性 初始 选择 方法
【说明书】:

技术领域

本发明涉及一种基于用户偏好与项目属性的聚类初始点选择方法,属于机器学习领域。

背景技术

聚类是一种无监督的学习方法,它通过一定的规则将数据对象按照定义的相似性划分成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。到目前为止,聚类分析的应用已十分广泛,包括统计学、机器学习、图像分割、和数据挖掘等。目前,主要的聚类算法分为划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。而划分式聚类算法是实际应用中聚类分析的支柱。划分式聚类算法需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终聚类结果。划分式聚类算法简单、快速而且能有效的处理大数据集,但此聚类算法存在高计算性及对数据的输入顺序敏感的缺点,且需要预先指定聚类数目或聚类中心。初始聚类中心点对聚类结果的影响很大。如果初始聚类中心点选择不当,得到的聚类结果可能会陷入局部最优,从而得不到较好的聚类结果。而划分式聚类初始聚类中心点的选择方法也是多种多样,主要有以下几种方法:

随机选择法:随机选取k个数据点作为初始聚类中心点;

经验法:依据经验,根据个体性质,选择k个有代表意义的点作为初始聚类中心点;

递推法:首先计算全体数据样本的均值,以这个数值点作为初始聚类中心,然后计算距离第一个数值点最远的一个点作为第2个聚类中心,以此类推,由第k-1个聚类中心计算聚类最远的一个数据样本作为最后一个聚类中心。

密度估计选择法:计算特定半径内的每个数据样本的密度,具有最大密度的点作为第一个聚类中心点,然后再计算剩下的初始中心点,若是具有第二大密度的点距离第一个聚类中心点的距离大于特定值则作为第2个初始聚类中心点,按此方法依次选出k个中心点;

距离优化选择法:按照最大最小距离计算

采用遗传算法计算聚类初始中心点等。

由于初始聚类中心点对聚类结果的影响很大。如果初始聚类中心点选择不当,得到的聚类结果可能会陷入局部最优,从而得不到较好的聚类结果。为了获得恰当的初始聚类中心点,避免聚类结果陷入局部最优,本专利提出一种新的聚类初始中心点的选择方法。

发明内容

本发明的目的是为了解决基于划分的算法的初始中心点的选择的问题,使用用户的偏好信息和商品属性来构造相似矩阵,从而得到初试中心点。

本发明技术方案的实现过程为:

步骤1、确定基于项目的相似矩阵;

定义项目的特征向量:itemi=(p1,p2,…,pm);其中m为项目的属性个数,pi(1≤i≤m)代表了此项目第i个特征向量的值。然后每个项目可以转换为用一个向量itemi=(w1,w2,…,wm)表示,其中向量维数是m,即项目的属性特征个数。然后通过计算表示项目的向量间的距离Aij来表示itemi和itemj之间的相似性,从而构成相似矩阵

所属项目u与项目v之间通过距离获取相似度的计算方法包括:皮尔逊相关的距离、欧氏距离、余弦距离、斯皮尔曼距离和基于谷本相关的距离。

步骤2、确定基于用户偏好的同现矩阵;

定义用户对项目的偏好列表:prefs=(user_id,item_id,pref),其中pref代表用户对项目的评分,所有用户对项目的评分组成评分列表prefs。通过计算itemi和itemj同时出现在相同的用户的偏好列表中的次数Bij,来构成同现矩阵

步骤3、确定最终的相似矩阵;

最终的相似矩阵定义为其中和β为自定义的权重。

步骤4、去除边缘点;

在TS的每行中,分别计算相似度大于给定阈值θ的项目的个数,记为αi,若是αi的个数小于给定阈值μ表示此点是边缘点,则从相似矩阵中删除代表此项目的行和列以此来实现从相似矩阵中去除此边缘点;遍历所有的行后完成所有去除边缘点的操作后再次获得相似矩阵;

步骤5、选择聚类初始中心点:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410035844.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top