[发明专利]一种基于Spark的电影推荐系统及方法有效
申请号: | 201910798202.8 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110717093B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 刘祥;熊晓明;王艺航;李辉 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;H04N21/25 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杜鹏飞 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Spark的电影推荐系统,包括数据采集部分、数据存储部分、离线推荐部分和实时推荐部分,其中:所述数据采集部分:通过Web端实时监控用户数据变化,Flume从Web端运行日志中读取日志更新,获取用户对电影的评分情况,将日志信息实时发送Kafka集群,使用Kafka作为流式数据的缓存组件接受来自Flume的数据采集请求,并将数据推送到实时推荐部分;本发明通过使用MongoDB、ES、Redis作为数据存储部分,同时作为原始数据和离线、实时数据处理的数据存储,大大提高了实时和离线的计算效果。 | ||
搜索关键词: | 一种 基于 spark 电影 推荐 系统 方法 | ||
【主权项】:
1.一种基于Spark的电影推荐系统,其特征在于,包括数据采集部分、数据存储部分、离线推荐部分和实时推荐部分,其中:/n所述数据采集部分:通过Web端实时监控用户数据变化,Flume从Web端运行日志中读取日志更新,获取用户对电影的评分情况,将日志信息实时发送Kafka集群,使用Kafka作为流式数据的缓存组件接受来自Flume的数据采集请求,并将数据推送到实时推荐部分;/n所述数据存储部分:业务数据库采用文档数据库MongoDB作为主数据库,主要负责平台业务逻辑数据的存储;采用ElasticSearch(ES)作为模糊检索服务器,通过利用ES强大的匹配查询能力实现基于内容的推荐服务;采用Redis作为缓存数据库,用来支撑实时推荐部分对于数据的高速获取需求,存储按照时间从大到小的顺序存入用户的最近评分队列中;/n所述离线推荐部分:通过Azkaban实现对于离线统计服务和离线推荐服务的调度,通过设定运行时间完成对任务的触发执行,定期处理统计的数据;离线统计服务批处理统计采用Spark Core+Spark SQL进行实现,实现对指标类数据的统计任务,并将数据加载到MongoDB和ES中;离线推荐服务采用Spark Core+Spark MLlib进行实现,采用ALS算法进行实现,并将处理的数据加载到MongoDB;/n所述实时推荐部分:采用Spark Streaming作为实时推荐部分,通过接收Kafka中缓存的数据,基于模型的实时推荐以实现对实时推荐的数据处理,并将处理好的实时推荐结果合并更新到MongoDB数据库。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910798202.8/,转载请声明来源钻瓜专利网。