[发明专利]基于用户的协同过滤的并行实现方法及系统有效
申请号: | 201410808451.8 | 申请日: | 2014-12-22 |
公开(公告)号: | CN104572880B | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 宋晨;罗熙;杨婧;徐震;王远 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于用户的协同过滤的并行实现方法及系统。首先将待处理数据按照固定分块大小存放在分布式文件系统中;接着进行数据规范化处理、用户相似度计算以及推荐物品计算,其中数据规范化处理将数据整理成可并行处理的形式,用户相似度计算以及推荐物品计算均首先在文件存储的服务器中进行数据整理、同一文件系统数据归并操作,接着将处理结果以主键、值对的方式发送给中心节点,由中心节点按照主键计算出每个主键需要归并的节点,最后进行跨存储节点的数据归并操作,从而得到用户的最终推荐结果。本发明充分利用了分布式文件系统分块存储文件的特性,通过并行运算减少了循环遍历所需要的开销,能够满足面向海量用户进行协同推荐的要求。 | ||
搜索关键词: | 基于 用户 协同 过滤 并行 实现 方法 系统 | ||
【主权项】:
一种基于用户的协同过滤的并行实现方法,其特征在于,包括如下步骤:1)采用分布式文件系统分块保存待进行计算的数据文件;2)分布式文件系统中的每个文件服务器对存储于其上的数据进行数据规范化处理、用户相似度计算以及推荐物品计算,其中:所述数据规范化处理将数据整理成可并行处理的形式;所述用户相似度计算以及所述推荐物品计算,均首先在文件存储的服务器中进行数据整理、同一文件系统数据归并操作,接着将处理结果的键值对发送给中心节点,由中心节点按照主键计算出每个主键需要归并的节点,最后进行跨存储节点的数据归并操作,从而得到用户的最终推荐结果;所述用户相似度计算首先进行物品评分数据计算,然后以物品评分数据作为衡量用户之间相似程度的指标,通过距离计算方法得到用户相似矩阵;所述物品评分数据计算的步骤为:a)读取本地存储文件块的用户、物品、评分三元组数据;b)启动本地归并过程,提取物品编号作为主键,用户与评分作为值,将本地存储中具有相同物品主键的数据按照物品,用户、评分序列对的格式进行归并;c)归并结果发送给中心节点,中心节点依据主键分配跨存储归并节点;d)同一主键的数据被发送到相同节点的相同运算过程中进行跨存储节点的归并操作,并输出最终结果,该结果以物品为主键,用户、评分序列对为值,并以不重复的命名方式保存在分布式文件系统指定的目录下,作为物品评分数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410808451.8/,转载请声明来源钻瓜专利网。