[发明专利]一种基于社会化标签的协同过滤方法无效
申请号: | 201010185859.6 | 申请日: | 2010-05-28 |
公开(公告)号: | CN101853470A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 邵健;张寅;姚璐;蔡瑞瑜 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社会化 标签 协同 过滤 方法 | ||
技术领域
本发明涉及个性化推荐领域,尤其涉及一种基于社会化标签的协同过滤方法。
背景技术
随着网络和多媒体技术的迅猛发展,互联网上的图像数量呈爆炸性增长。据统计,2008年,Google已索引Web网页规模达到1万亿,其中图像数据超过几十亿张。海量信息的同时呈现,一方面使用户很难从中发现自己感兴趣的部分,另一方面也使得大量少有人问津的信息成为网络中的“暗信息”,无法被一般用户获取。个性化推荐系统通过建立用户与信息产品之间的二元关系,利用已有的选择过程或相似性关系挖掘用户潜在感兴趣的对象,进而进行推荐,其本质就是信息过滤。个性化推荐系统不仅在社会经济中具有重要的应用价值,而且也是一个非常值得研究的科学问题。事实上,它是目前解决信息过载问题最有效的工具之一。
协同过滤推荐(collaborative filtering recommendation)技术是推荐系统中最为成功的技术之一,已被广泛的应用于电影推荐(Netflix)、图书推荐(Amazon)等领域。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到与指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。然而,虽然有着广泛的研究与应用,协同过滤技术仍然难以克服数据稀疏性问题,即在现有推荐系统中,用户往往只评价过极小一部分物品,这样使得基于用户的评价所得到的用户间的相似性可能不准确。稀疏性的问题具体表现在如下两个方面:
1)冷起动问题(cold start),即当新的用户或新的物品加入到推荐系统时,由于缺少评价信息,不能为其找到相似的用户或相似的物品,从而无法进行推荐。
2)相似传递性问题(Neighbor transitivity),即用户A与B有相似偏好,用户B和C也有相似偏好,那么A与C也可能有相似偏好,即使A与C没有评价过相同的物品。因此传统的协同过滤推荐算法无法挖掘出潜在的相似用户或相似物品。
为了解决以上缺点,我们提出1)使用社会化标签提供的语义信息来挖掘物品的相似性,从而缓解因缺少用户评分信息而无法精确计算物品相似度的瓶颈;2)使用基于图模型的随机游走(Random walk)算法来解决相似传递性问题。
更进一步,由于社会化标签由用户产生,这些标签总数量很大,而其中难免出现错误与噪音,同时,每个用户习惯用很少的一部分标签来标注物品,使得物品的语义不能被标签充分的表达。为了解决这个问题,我们提出一种基于lasso logistic regression的模型通过关联语义相似的标签,使得物品的语义可被更加全面和准确的表达。
发明内容
本发明的目的是克服现有推荐技术的不足,提供一种基于社会化标签的协同过滤方法。
基于社会化标签的协同过滤方法包括如下步骤:
1)首先使用三部图对用户、物品、社会化标签这三种不同结点进行建模,并应用随机游走算法为每个用户个性化推荐top-N个物品;
2)使用lasso logistic regression模型去对物品进行标签的扩展,即对每个物品,增加与其语义相关的标签,并且除去那些有噪音的标签,以解决社会化标签中存在的噪音和稀疏性问题,即物品通常只有很少一部分标签标注;
3)调节标签在推荐过程中的权重。
所述的通过三部图对用户、物品以及标签建模并应用随机游走算法为每个用户推荐物品的步骤为:
1)使用三部图建模,则该三部图可表示为:G={U,I,T,E},其中U、I、T分别表示用户、物品、标签,E表示它们之间的关系,则该三部图可以如下邻接矩阵表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010185859.6/2.html,转载请声明来源钻瓜专利网。