[发明专利]一种分布式个性化推荐方法及系统有效
申请号: | 201410225857.3 | 申请日: | 2014-05-23 |
公开(公告)号: | CN103995878B | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 王雷;况亚萍;夏磊;张成晨 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京凯特来知识产权代理有限公司11260 | 代理人: | 郑立明,郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 个性化 推荐 方法 系统 | ||
技术领域
本发明涉及分布式计算技术领域,尤其涉及一种分布式个性化推荐方法及系统。
背景技术
个性化推荐系统是一种根据用户的个人信息、兴趣特点、购买行为等,向用户个性化推荐感兴趣的信息或商品的系统。推荐系统有三个重要的模块:用户建模模块、推荐对象建模模块、推荐算法模块。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。
Hadoop是一个开源项目,是一种针对大数据处理和分析的开源分布式计算平台,是一个完整的分布式软件架构。Hadoop由HDFS(分布式文件系统)、HBase(分布式开源数据库)、MapReduce(映射化简模型)、ZooKeeper(可靠性协调系统)等核心部分组成,分别负责分布式文件系统、分布式数据库系统、分布式并行计算模型和并发访问控制。
其中,Hadoop为一个分布式系统基础架构的名称。用户可以在不了解分布式底层细节的情况下,开发分布式程序,并且充分利用集群高速运算和存储的能力。具有高扩展性、高可靠性、高容错性、低成本等特点。
HDFS为Hadoop实现的一个分布式适合运行在通用硬件上的文件系统(英文全称,Hadoop Distributed File System,简称HDFS)。HDFS具有高容错性,提供高吞吐量的数据访问,适合那些有着超大规模数据集的应用程序。
HBase为一个分布式的、面向列的开源数据库。它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。具有高可靠性、高性能、面向列、可伸缩等特点。
MapReduce是谷歌提出的一个软件架构,是一种编程模型,用于大规模数据集(大于1TB)的并行运算。软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
Zookeeper是Hadoop的子项目。是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式服务、组服务等。Zookeeper的目标就是封装好复杂易出错的的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
当前的推荐系统主要集中在单一节点上,通过显式地收集用户反馈或者或隐式地分析行为记录,学习和跟踪用户的兴趣偏好和行为模式,主动向用户推荐那些可能感兴趣的商品。推荐算法是推荐系统的核心。常见推荐算法包括协同过滤推荐、基于内容推荐、基于关联规则推荐、基于效用推荐、基于知识推荐等。
在众多协同过滤算法中,Slope One以其极易实现、预测高效、准确度高等特点受到业界的青睐。Slope One算法是一系列应用于系统过滤的算法的统称,是一种系统过滤推荐的思想,是基于项目评价的系统过滤算法的最简洁形式。其本质是用简单的线性关系来拟合复杂的相似度计算。从直观上来看,共同出现次数更多的项目对对彼此评分的影响更大。因此有更通用的WSO(Weighted Slope-one轻量级Slope one算法)方法对评分差进行加权计算。
随着用户数据量的剧增,传统基于单一节点的集中式推荐系统显现出存储能力不足和计算能力不足的弊端,不能保证推荐的实时性,推荐效果也不明显。用户数据量剧增,Slope One算法缺点展现出来:(1)原Slope One算法时间、空间复杂度过高,单机无法存储中间文件;(2)计算代价过高,通常只能使用在小规模数据上。另一方面,在Slope One算法实现上,使用MapReduce在HDFS大规模数据集合上进行多次联结操作,这种多台服务器的联结包括Map侧(Map-side)和Reduce侧(Reduce-side)。Reduce侧的联结适用性高,但是开销大,Map侧联结速度快,适用性低。
发明内容
本发明的目的是提供一种分布式个性化推荐方法及系统,节约了网络传输资源和输入输出开销,提高了联结效率。
本发明的目的是通过以下技术方案实现的:
一种分布式个性化推荐方法,该方法包括:
建立包含用户信息、该用户评分项目及对应评分值的评分集合;
根据该集合计算所有用户的所有项目对评分差的算术平均值及同一项目对出现的总次数,并写入预先构建的项目对评分差表;其中,所述评分集合与项目对评分差表均采用Hbase表来存储;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410225857.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于根据差动打滑来电子调节制动力分配的方法和装置
- 下一篇:刮水片装置