[发明专利]一种面向大规模用户的个性化信息推荐方法在审
申请号: | 201710135697.7 | 申请日: | 2017-03-09 |
公开(公告)号: | CN106919699A | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 马应龙;苗文凯 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科家知识产权代理事务所(普通合伙)11427 | 代理人: | 莫文新 |
地址: | 102206 北京市昌平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 大规模 用户 个性化 信息 推荐 方法 | ||
技术领域
本发明属于推荐系统领域,尤其涉及一种面向大规模用户的个性化信息推荐方法,其中还会涉及到降维、聚类和数据填充的使用。
背景技术
在大数据的背景下,虽然有网站导航和搜索引擎给用户提供信息,但是不能主动给用户推荐信息。个性化推荐能够给用户推荐感兴趣的信息,并且推荐过程对用户是透明的,不需要用户的参与。个性化推荐能够通过后台收集用户的浏览、点击和评分等等构建用户模型,最终给每一个用户推荐不同的物品。
但是现实中用户规模是很庞大的,并且大多数情况下得到的用户向量是高维度稀疏的,直接进行推荐效果非常不明显,并且高维度数据的处理非常耗时。所以需要先对高维度的数据进行降维,然后再聚类,得到不同的用户类簇。不同的类簇之间用户相似度差别很大,但是同一个类簇中用户是相似的。进一步,在同一个类簇中相似用户的基础上进行数据填充,保证使用同一个类簇的用户数据填充当前类簇的稀疏数据,这样不会出现填充后的数据出现用户兴趣的偏移的情况。最后,在填充后的类簇内针对用户进行个性化的推荐。
发明内容
为了处理大规模用户和用户向量高维度稀疏的问题,并且提升推荐的准确度,本发明提出了一种面向大规模用户的个性化信息推荐方法。本方法充分的考虑了用户的规模的问题,使用降维解决用户向量高维度的问题。进一步在降维的基础上对用户进行聚类,得到相似用户类簇,然后进行数据填充和个性化推荐。
一种面向大规模用户的个性化信息推荐方法,该方法采用用户物品评分矩阵表示用户模型,然后对用户物品评分矩阵的降维和聚类操作后得到不同的用户类簇,在不同的用户类簇中进行数据填充,然后再针对每个用户进行推荐。
步骤1:读取数据集文件构建用户物品评分矩阵R(m×n),其中矩阵的每一行表示表示同一个用户对不同物品的评分,每一列表示不同用户对同一个物品的评分,m表示用户总数,n表示物品总数,进入步骤2;
步骤2:使用SVD对用户物品评分矩阵进行降维,由于用户物品评分矩阵R可以表示为R=UλVT,其中λ为矩阵R的特征向量,并且特征值是从大到小排列的,取前k个特征值,保证前k个特征值的和占所有特征值总和的80%,即per(k)=80%,k的计算公式为:
其中,n是用户物品评分矩阵的秩,k是降维后的维度,最后降维后的矩阵R'(m×k),进入步骤3;
步骤3:使用Canopy算法确定k1的值和k1个不同的初始中心,进入步骤4;
步骤4:将k1和k1个不同的初始中心作为K-means的输入,进而进行用户聚类,最终得到k1个用户类簇。同一个类簇中的用户是相似的,不同类簇中的用户的相似度不大,进入步骤5;
步骤5:针对每一个用户使用slope one算法进行数据填充,首先判断用户类簇中的用户是否稀疏,如果稀疏那么使用slope one算法进行数据填充后进入步骤6;如果用户不稀疏则直接进入步骤6;
slope one算法虽然简单,但是填充效果很好,这里定义物品i相对于物品j的平均偏差其中Sj,i()表示同时对物品i和物品j给予评分的用户集合,而card()表示集合包含的元素数量,有了上面的定义后,这里使用devj,i+ui获得用户u对物品j的预测值,当把所有的预测值平均起来得到其中Rj表示所有用户u已经给予评分且满足条件(i≠j且Sj,i非空)的物品集合。
步骤6:首先确定相似用户的邻居个数,根据协同过滤算法经过多次试验,经验上一般选择邻居个数为6到10之间的一个数为宜,在这里选定相似邻居数为8,不同的邻居个数对结果有不同的影响,如果邻居数太小,得到的结果会不准确,如果邻居数太大,会增加计算量,进入,然后计算用户相似度使用的距离函数;皮尔逊相似度PV(u,c)可以去除均值和方差间的差异影响。所以在这里选择使用皮尔逊相关系数作为距离函数其中rui表示用户u对物品i的评分,表示用户u的评分的均值,rvi表示用户v对物品i的评分,表示用户v的评分的均值,进入步骤7;
步骤7:在用户类簇内使用基于用户的协同推荐算法针对每一个用户进行推荐,最终对每一个用户生成一个物品的推荐列表。
本发明能够适应大规模用户推荐的场景,处理高维度的稀疏数据,并且能够提高个性化推荐结果的准确度。
附图说明
图1为用户数量462时三个指标的比较;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710135697.7/2.html,转载请声明来源钻瓜专利网。