[发明专利]一种基于Spark平台的分布式推荐方法有效

专利信息
申请号: 201710647317.8 申请日: 2017-08-01
公开(公告)号: CN107451267B 公开(公告)日: 2020-02-21
发明(设计)人: 陈东明;胡阳;黄新宇 申请(专利权)人: 东北大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06Q30/02;G06Q30/06
代理公司: 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 代理人: 李晓光
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 平台 分布式 推荐 方法
【说明书】:

发明涉及一种基于Spark平台的分布式推荐方法,当用户输入相关参数合法且用户点击历史行为数据不为空时,产生基于ItemBased协同过滤的推荐序列A;对基于以用户为顶点,用户与用户的共同点击数为边进行社团发现,产生基于UserBased协同过滤的推荐序列B;将A和B按照不同的权重进行合并,产生基于协同过滤的推荐序列C;在C的基础上,关注用户个人点击历史行为,利用因子分解机模型进行训练,产生训练模型进行预测,产生预测推荐序列结果P;按照合并规则对C和P进行合并,生成最终推荐序列F并排序,写入实时数据库。本发明能满足海量大数据的推荐需求,将集体智慧推荐与个人智慧推荐相结合,形成最终的推荐序列。

技术领域

本发明涉及一种分布式推荐系统,具体为基于Spark平台的分布式推荐方法。

背景技术

协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和推荐系统中一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。传统基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐;传统基于user的协同过滤,通过不同用户对item的评分来评测用户之间的相似性,基于用户之间的相似性做出推荐。

随着大数据时代的到来以及推荐系统的多元化发展,在现实的很多业务场景中,推荐给用户相关商品后,只有曝光后点击和曝光后未点击的历史数据记录,很难直接得到用户对某一商品的具体评分。

传统的协同过滤方法生成推荐序列以后,并不会结合用户的历史行为,对该推荐序列进行回归预测。

随着数据量的扩大,传统的协同过滤单机算法模型遇到了计算瓶颈,计算时间过长或者计算量太大而算不出结果。

目前,分布式大数据处理框架Hadoop提供了一套完整大数据解决方案。其中,MapReduce模型适用于批处理,HDFS(Hadoop Distributed File System)适用于海量数据存储。MapReduce会将计算的中间结果缓存到磁盘中进行复用,导致增加读写IO的开销,从而计算变慢。

Spark是基于MapReduce的分布式内存迭代计算框架,计算的中间结果直接缓存到内存当中复用,而且Spark可以直接访问HDFS上的数据,计算速度更快,能够很好地满足推荐系统的实效性要求。

目前,应用Spark分布式内存迭代计算框架实现商用推荐系统的技术方案较少。

发明内容

针对现有技术中分布式大数据处理框架会将计算的中间结果缓存到磁盘中进行复用,导致计算变慢等不足,本发明要解决的问题是提供一种计算速度更快、能够很好地满足推荐系统的实效性要求的基于Spark平台的分布式推荐方法。

为解决上述技术问题,本发明采用的技术方案是:

本发明一种基于Spark平台的分布式推荐方法,包括以下步骤:

1)用户输入相关参数,当参数合法且用户点击历史行为数据不为空时,通过ItemBased协同过滤算法,基于用户历史点击行为,采用共现矩阵计算文章的相似度,从而产生基于ItemBased协同过滤的推荐序列A;

2)当参数合法且用户点击历史行为数据不为空时,对基于以用户为顶点,用户与用户的共同点击数为边进行社团发现,使用用户的相似的兴趣对用户进行聚类,在此基础上,计算相似用户矩阵,并产生基于UserBased协同过滤的推荐序列B;

3)将推荐序列A和推荐序列B按照不同的权重进行合并,产生基于协同过滤的推荐序列C,做为推荐系统中使用集体智慧进行推荐的一种表现方式;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710647317.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top