[发明专利]一种基于用户偏好与项目属性的聚类初始点选择方法有效
申请号: | 201410035844.X | 申请日: | 2014-01-24 |
公开(公告)号: | CN103793504B | 公开(公告)日: | 2018-02-27 |
发明(设计)人: | 宿红毅;王彩群;闫波;郑宏 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙)11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于用户偏好与项目属性的聚类初始点选择方法,属于机器学习领域。首先确定基于项目的相似矩阵和基于用户偏好的同现矩阵,通过两矩阵得到最终的相似矩阵;进而通过去除边缘点,选择聚类初始中心点,完成对初始中心点的选择。本发明可以有效提高聚类效果。 | ||
搜索关键词: | 一种 基于 用户 偏好 项目 属性 初始 选择 方法 | ||
【主权项】:
一种基于用户偏好与项目属性的聚类初始点选择方法,其特征在于:步骤1、确定基于项目的相似矩阵;定义项目的特征向量:itemi=(p1,p2,…,pm);其中m为项目的属性个数,pr(1≤r≤m)代表了此项目第r个特征向量的值;然后每个项目可以转换为用一个向量itemi=(w1,w2,…,wm)表示,其中向量维数是m,即项目的属性特征个数,wm表示第m个属性特征值;然后通过计算表示项目的向量间的距离Aij来表示itemi和itemj之间的相似性,从而构成相似矩阵itemj表示第j个项目,n表示项目的个数;步骤2、确定基于用户偏好的同现矩阵;定义用户对项目的偏好列表:prefs=(user_id,item_id,pref),其中pref代表用户对项目的评分,所有用户对项目的评分组成评分列表prefs;通过计算itemi和itemj同时出现在相同的用户的偏好列表中的次数Bij,来构成同现矩阵步骤3、确定最终的相似矩阵:其中和β为自定义的权重;步骤4、去除边缘点;在TS的每行中,分别计算相似度大于给定阈值θ的项目的个数,记为αq,若是αq的个数小于给定阈值μ表示此点是边缘点,则从相似矩阵中删除代表此项目的行和列以此来实现从相似矩阵中去除此边缘点;遍历所有的行后完成所有去除边缘点的操作后再次获得相似矩阵;步骤5、选择聚类初始中心点;所述选择聚类初始中心点具体包括:(1)在获得的相似矩阵中,找出最大相似度,然后将这个最大相似度的两个点的中心点作为聚类的中心点,记录到Cluster[]中;并计算两个点到它们的中心点的距离,找出较大距离的点,将相似矩阵中代表较大的距离的点的行和列删除,得到新的相似矩阵;(2)再从上述相似矩阵中找到最大相似度,依次计算具有此最大相似度的两个点分别到所有聚类初始中心点Cluster[]的距离,若是存在距离小于给定阈值ω,则合并此点到具有最小距离的聚类中,重新计算聚类中心点,否则若是不存在距离小于给定阈值ω,则此点作为新的聚类中心,并将此点作为另外一个初始中心点加入到Cluster[]中;然后将此最大相似度的两个点所代表的的行和列删除得到新的相似矩阵;进行迭代,直至聚类中心点的个数为k。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410035844.X/,转载请声明来源钻瓜专利网。