[发明专利]一种基于Spark平台Web服务个性化推荐方法及系统有效
申请号: | 201710687556.6 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107480250B | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 张以文;周媛媛;吴金涛;李炜;王福田 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02;G06Q30/06 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 平台 web 服务 个性化 推荐 方法 系统 | ||
一种基于Spark平台Web服务个性化推荐方法及系统,包括:提取用户在电商应用或信息平台的行为数据,对收集的行为数据进行评估分析;利用基于商空间粒度分析的覆盖聚类算法对收集的行为数据进行聚类处理得出聚类结果,根据上述聚类结果构建用户关联矩阵Mu和服务关联矩阵Ms,再通过对上述构建的关联矩阵进行目标用户和目标Web服务的相似邻居分析,得出目标用户和目标Web服务的相似邻居结果,并根据相似邻居结果的聚类信息对用户的评价值QoS进行预测和混合处理得出推荐算法;在Spark平台下对该推荐算法进行并行化计算,对计算结果进行存储。该方法有效提高了Web服务推荐的准确性和效率,同时缓解了推荐过程中可能存在的数据稀疏性以及扩展性问题。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种基于Spark平台Web服务个性化推荐方法及系统。
背景技术
随着大数据时代的到来,网络中的Web服务呈指数式增长,随之带来了信息过载的问题。推荐系统是解决新信息过载的最有效方法之一。大数据推荐系统已逐渐成为研究热点。推荐系统帮助用户从庞大的Web服务中找到自己满意的Web服务是非常困难且耗时的。利用个性化推荐技术从大规模数据中提取用户满意的信息十分必要。然而在当今大数据的实际生活中,由于数据量和规模过于庞大,导致计算过程异常耗时和困难,很难达到满足用户渴望的高效率和满意的推荐结果。而云计算技术的出现为我们提供了很好的方法,基于Spark平台Web服务个性化推荐系统能够高效地用户提供优质的服务。
发明内容
本发明所要解决的技术问题在于提供了一种能够达到满足用户渴望的高效率和满意的推荐结果的基于Spark平台Web服务个性化推荐方法及系统。
本发明是通过以下技术方案解决上述技术问题的:一种基于Spark平台Web服务个性化推荐方法,包括下述步骤:S1、提取用户在电商应用或信息平台的行为数据,对收集的用户对Web服务的历史行为信息进行评估分析;
S2、用基于商空间粒度分析的覆盖聚类算法对收集的用户对Web服务的历史行为信息进行聚类处理得出聚类结果;
S3、根据上述步骤S2中的聚类结果构建用户关联矩阵Mu和Web服务关联矩阵Ms;
S4、通过对上述步骤S3中构建的关联矩阵进行目标用户和目标Web服务的相似邻居分析,得出目标用户和目标Web服务的相似邻居结果;
S5、根据上述步骤S4中目标用户和目标Web服务的相似邻居结果的聚类信息分别对用户的评价值QoS进行预测;
S6、混合处理步骤S5中的预测结果得出推荐方案,完成整个推荐算法;
S7、在Spark平台下对该推荐算法进行并行化计算,并对计算结果进行存储,提高推荐系统的性能。
作为优化的技术方案,所述步骤S2中,采用基于用户(user)和Web服务(service)二重混合的混合推荐算法对收集的用户对Web服务的历史行为信息进行聚类,上述进行聚类的过程采用基于商空间粒度分析的覆盖聚类算法,所述基于商空间粒度分析的覆盖聚类算法具体包括如下步骤:
S01、计算出所有未学习过的样本点的重心,并以离该重心最近的样本点作为覆盖的圆心;
S02、计算出所有还未聚类的样本点与圆心的距离;
S03、计算出步骤S02中所有距离的平均距离,以上述平均距离为半径;
S04、并根据上述半径计算出球形覆盖;
S05、计算当前球形覆盖的重心;当样本点的个数大于预设值是,执行步骤S06,当样本点的个数不大于预设值是,执行步骤S07;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710687556.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:海量信息的评级方法、设备以及系统
- 下一篇:一种管理数据访问的系统