[发明专利]一种基于Spark平台的分布式推荐方法有效
申请号: | 201710647317.8 | 申请日: | 2017-08-01 |
公开(公告)号: | CN107451267B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 陈东明;胡阳;黄新宇 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q30/02;G06Q30/06 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 李晓光 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 平台 分布式 推荐 方法 | ||
1.一种基于Spark平台的分布式推荐方法,其特征在于包括以下步骤:
1)用户输入相关参数,当参数合法且用户点击历史行为数据不为空时,通过ItemBased协同过滤算法,基于用户历史点击行为,采用共现矩阵计算文章的相似度,从而产生基于ItemBased协同过滤的推荐序列A;
2)当参数合法且用户点击历史行为数据不为空时,对基于以用户为顶点,用户与用户的共同点击数为边进行社团发现,使用用户的相似的兴趣对用户进行聚类,在此基础上,计算相似用户矩阵,并产生基于UserBased协同过滤的推荐序列B;
3)将推荐序列A和推荐序列B按照不同的权重进行合并,产生基于协同过滤的推荐序列C,做为推荐系统中使用集体智慧进行推荐的一种表现方式;
4)当参数合法且用户点击历史行为数据不为空时,对在已有协同过滤推荐序列C的基础上,关注用户个人点击历史行为,并对用户一段时间内曝光未点击的数据与曝光点击的数据利用因子分解机模型进行训练,产生训练模型T,并将该用户的协同过滤推荐序列C利用该训练模型进行预测,产生预测推荐序列结果P,做为个人点智慧进行推荐的一种表现方式;
5)按照合并规则对协同过滤推荐序列C和预测结果P进行合并,生成最终推荐序列F;
6)对推荐序列F进行排序,并写入实时数据库。
2.按权利要求1所述的基于Spark平台的分布式推荐方法,其特征在于:
步骤1)中,采用ItemBased协同过滤算法为:
用户输入相关参数,包括用户输入历史点击记录天数和参与预测历史纪录阈值;用户输入文章相似度阈值和用户相似个数阈值;用户输入ItemBased推荐算法比率和UserBased推荐算法比率;用户输入CF推荐算法比率和因子分解机预测算法比率;
如果以上参数合法,则进行协同过滤推荐,即从分布式文件系统(HDFS)获得calculate_days的历史记录,筛选掉噪声数据,获得历史数据记录集即List[(userid,articleid,clicked_flag)],表示由(用户编号,文章编号,点击标志)构成的集合;
选择历史数据记录集中点击标志位为1的记录,生成点击历史记录集,即List[(userid,articleid,1)],表示由(用户编号,文章编号,点击标志为1)构成的集合;
选择历史数据记录集中点击标志位为0的记录,生成曝光未点击历史记录集,即List[(userid,articleid,0)],表示由(用户编号,文章编号,点击标志为0)构成的集合;
从分布式文件系统中获得文章标签记录,即List[(articleid,List[tag])],表示由(文章编号,文章标签列表)构成的集合;
从分布式文件系统获得用户兴趣标签记录即List[(userid,List[tags])],表示由(用户编号,用户兴趣列表)构成的集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710647317.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动带刷毛清洗设备
- 下一篇:一种弹簧加工生产用清洁装置