[发明专利]基于Jaccard均衡距离的协同过滤推荐方法在审
申请号: | 201510493501.2 | 申请日: | 2015-08-12 |
公开(公告)号: | CN105095476A | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 李阳阳;焦李成;王贾予沣;马文萍;尚荣华;马晶晶 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;韦全生 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 jaccard 均衡 距离 协同 过滤 推荐 方法 | ||
技术领域
本发明属于数据处理技术领域,具体是一种协同过滤推荐方法,可用于个性化推荐系统。
背景技术
随着互联网和信息技术的快速发展和普及,人们对信息的依赖程度与日俱增。信息技术的大量使用提高了信息的产生、处理和传播效率。互联网作为信息时代的基础平台,承载了大量的信息资源。面对海量的信息资源,用户无法有效筛选出对自己有用的信息,这就造成了信息过载问题。为了解决信息过载问题,推荐系统应运而生。与传统的信息过滤技术搜索引擎相比,推荐系统不需要用户提供搜索关键词,而是通过分析用户历史行为记录发现用户的潜在爱好,从而产生推荐。因此,推荐系统满足了用户个性化需要。
协同过滤推荐算法是推荐系统的主流算法,这种算法的基本思想是:根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,再根据邻居的偏好对该用户进行预测。协同过滤算法主要分为:基于内存的算法和基于模型的算法。基于内存的协同过滤算法可分为基于用户的协同过滤算法和基于项目的协同过滤算法。
基于用户的协同过滤算法的基本思想是预先根据所有用户的历史偏好数据计算用户之间的相似性,然后把与目标用户相似的用户喜欢的物品推荐给目标用户;基于项目的协同过滤的基本思想是:预先根据所有用户的历史偏好数据计算物品之间的相似性,然后把与目标用户喜欢的物品相类似的物品推荐给目标用户。这两种算法的关键在相似度的计算,不同的相似度计算方法会对目标用户产生不同的邻居集,进而影响推荐结果。
BreeseJ,HeckermanD等人在文献Empiricalanalysisofpredictivealgorithmsforcollaborativefiltering中研究了用余弦相似度计算用户相似度的方法,该方法仅考虑了两用户公共评分项目构成的向量之间的夹角大小,两向量之间的夹角越小,表明两用户相似度越高,但是该方法忽视以下三个问题:不同用户有不同的评分偏好对相似度的影响,如有的用户喜欢给出比较高的评分,而有的用户则偏好给出比较低的评分;公共评分项相对数量对相似度的影响,即两用户公共评分项目数量占两用户总评分项目多少对相似度的影响;用户评分向量长度对相似度的影响。该方法存在推荐准确度偏低、邻居集大小对推荐精度影响较大的问题。
LCandillier,FMeyer等人在文献Designingspecificweightedsimilaritymeasurestoimprovecollaborativefilteringsystems中研究了将Jaccard相关系数与皮尔逊相关系数相结合来计算用户间相似度的方法,该方法改进了原先算法中忽略公共项目占两用户评价项目比重的问题和不同用户有不同评分偏好的问题,但仍然没有考虑到两用户公共评分项目构成的向量长度对相似度影响的问题,因此该方法虽然提高了推荐准确度,但仍然没有解决邻居集大小对推荐准确度影响大的问题,即邻居集大小选取的不合适会降低推荐准确度。
发明内容
本发明的目的在于提出一种基于Jaccard均衡距离的协同过滤推荐方法,以解决现有协同过滤推荐算法受邻居集大小影响较大,导致推荐准确度不高的问题。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)根据推荐系统提供的用户-项目评分记录构造大小为m×n的用户-项目评分矩阵R,其中m为用户数量,n为项目数量,将用户项目评分矩阵R中的90%作为训练集合T,10%做为测试集C;
(2)依据训练集T中的评分数据,用Jaccard均衡距离方法计算用户的相似度得到一个m×m的相似度矩阵该相似度矩阵第i行中的数据元素表示用户i和其他所有用户的相似度,元素X(i,j)表示用户i与用户j的相似度;
(3)确定最近邻居查询个数nu;
(4)确定目标用户U,待评分项目Ic;
(5)用(2)中得出的相似度矩阵X和最近邻居查询个数nu,确定目标用户U的邻居集S(U);
(6)计算用户U对项目Ic的预测评分值ri,c;
(7)循环步骤(4)-(6)对测试集中的所有用户的评分都进行预测;
(8)对测试集中的每个用户,将其预测评分值从大到小排列,选择前N个项目作为推荐项目,其中5≤N≤20。本发明与现有技术相比存在以下优点:
第一,本发明采用Jaccard均衡距离相似度测量方法,考虑到用户评分向量的长度对用户相似度的影响,使用户之间的相似度计算更为准确,从而提高了推荐准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510493501.2/2.html,转载请声明来源钻瓜专利网。