[发明专利]一种协同过滤中的用户相似度度量方法有效
申请号: | 201510110009.2 | 申请日: | 2015-03-13 |
公开(公告)号: | CN104731887B | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 顾梁;杨鹏;董永强 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 协同 过滤 中的 用户 相似 度量 方法 | ||
1.一种协同过滤中的用户相似度度量方法,其特征在于,包括以下步骤:
用户记录之间的距离计算阶段:
针对用户记录的数值属性与分类属性,分别采用不同距离度量方法,并建立二者联系,形成一个全面的用户记录之间距离度量的方法,得到用户记录之间的距离RD;
挖掘用户分类信息阶段:
根据用户记录之间的距离RD来判断两个用户之间的差异程度,基于此种差异改进聚类算法,对用户记录聚类后得到全局用户的分组信息,每个分组内的用户差异较小,不同分组内的用户差异较大;
相似度度量阶段:
基于已有用户对物品的历史评分信息以及用户的分类信息,得到目标用户与其他用户之间的相似度;
用户记录之间的距离计算阶段中,基于目标用户之间的属性信息类别的差异,即分类属性或数值属性,选择不同的处理方式,分别计算不同类型属性之间的距离;
对于数值属性,距离ND计算公式表述如下:
其中qa和qb是两个待比较的数值属性,而qmin和qmax分别是该数值属性区间的最小值与最大值;
对于分类属性,距离CD计算公式表述如下:
其中ya和yb是两个待比较的数值属性,T(ya,yb)为以ya和yb最小公共父结点为根节点的子树,H(Th)为树Th的高度,和为数据集中分别与ya和yb是对应的所有数值属性的平均值;
对于整个用户记录,距离RD计算公式表述如下:
其中ra和rb是两个待比较的用户记录,λ为调节因子,ri[x]为记录ri的属性x,p为分类属性的种类数,q为数值属性的种类数。
2.如权利要求1所述的协同过滤中的用户相似度度量方法,其特征在于:在对用户记录进行聚类的过程中,采用了考虑用户分类属性与数值属性的距离度量标准度量用户之间的差异;多次聚类迭代运算结束后得到k个用户类别以及每个用户类别所对应的分类中心。
3.如权利要求2所述的协同过滤中的用户相似度度量方法,其特征在于,用户分类挖掘阶段基于用户记录数据集,采用距离度量方法RD完善K-means聚类算法,具体步骤为:
(1)、设定簇数k、阈值参数s;
(2)、随机选择k个用户记录作为初始聚类簇中心;
(3)、计算每个用户记录到k个簇中心的距离,将每个记录归于与其距离最小的簇中心所代表的簇,计算所有用户与其所属簇的平均距离;
(4)、重新计算簇中心及每个用户与每个簇中心的距离,更新每个用户所属的簇;
(5)、计算所有用户与其所属簇的平均距离并与上一次的平均距离作比较,如果差值小于阈值s,则停止迭代运算,完成用户分类挖掘;否则转至步骤4,进行下一次迭代。
4.如权利要求1所述的协同过滤中的用户相似度度量方法,其特征在于:在计算目标用户与其他用户之间相似度的过程中,综合利用了用户的分组信息以及用户对物品的评分信息,建立完善相似度计算模型,得到目标用户与其他用户之间的相似度sim(X,Y),公式表述如下:
其中,CX为用户X所属于聚类分组的中心,i为用户X与Y共同评分的物品,rXi为用户X对物品i的评分,为用户X的平均评分,为用户Y的平均评分,IX为用户X所评分过的物品集合,IY为用户Y所评分过的物品集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510110009.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:热力图的展现方法及装置
- 下一篇:一种海量小文件的处理方法及系统