[发明专利]一种海量数据的处理、搜索、推荐方法及装置在审

专利信息
申请号: 201210141618.0 申请日: 2012-05-09
公开(公告)号: CN103389966A 公开(公告)日: 2013-11-13
发明(设计)人: 陈欢 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/16 分类号: G06F17/16;G06F17/30
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 苏培华
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 海量 数据 处理 搜索 推荐 方法 装置
【说明书】:

技术领域

本申请涉及数据处理技术,特别是涉及一种海量数据的处理方法及装置,一种基于海量数据的搜索方法及装置,一种基于海量数据的推荐方法及装置。

背景技术

当今社会的信息技术高速发展,一个网络平台上每天处理的数据就可以达到了千万级,海量数据的处理问题也引起了越来越多的关注。

海量数据处理方法中的一类是,通过对海量数据进行处理以区分不同的数据,例如,对海量数据进行聚类。但有时海量数据的稀疏性比较大,会导致海量数据在处理后,数据之间的差异不明显,不能很好的区分出各个数据的不同。

例如,将海量数据处理应用到产品推荐领域,用户数量是海量的,但是产品标签确实有限的,若数据集是N行13列的矩阵,每一行表示一个用户,第一列是用户id,后面的12列是用户标签,比如奶粉同好——品牌、奶粉同好——营养、孕产妇同好——注重保养等,这些标签体现了用户的特性,取3个月的用户数据。

上述数据存在3个问题:1)各个用户标签下的数据量纲不同;2)各个数据的区间跨度不同;3)数据稀疏性比较大。因此,对上述数据集进行改进,原有的12个标签中每个标签值作为独立标签,如奶粉同好——品牌下有A、B等,那么新的标签就会有奶粉同好——品牌——A、奶粉同好——品牌——B等。如此就生成了59个用户标签,每个用户在每个用户标签下有购买行为则为1,反之则为0。

经过上述改进后各个用户标签下的数据量纲相同,并且各个数据的区间跨度也相同了,但由于改进使得用户标签更加细化,进而导致数据的稀疏性加大,因此在后续海量数据在处理中,数据的区分性更加不明显。

发明内容

本申请提供一种海量数据的处理方法及装置,以解决是原始数据稀疏性较大导致数据区分的效果不明显的问题。

相应的,本申请还提供了一种基于海量数据的搜索方法及装置,一种基于海量数据的推荐方法及装置。

为了解决上述问题,本申请公开了一种海量数据的处理方法,包括:

将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;

对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;

将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;

对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。

相应的,本申请还公开了一种基于海量数据的搜索方法,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理方法计算得到的,所述的搜索方法包括:

接收用户的搜索请求,其中所述搜索请求中包括请求参数;

在海量数据中查找与所述请求参数相对应的类别数据;

将所述类别数据添加到搜索结果中并返回。

相应的,本申请还公开了一种基于海量数据的推荐方法,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理方法计算得到的,所述的推荐方法包括:

对所述海量数据中各个类别数据的属性进行分析,得到至少一个属性;

针对所述类别数据对应的用户,根据所述属性对应的推荐数据,向所述用户推荐相应的信息。

相应的,本申请还公开了一种海量数据的处理装置,包括:

存储模块,用于将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;

分解模块,用于对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;

重构模块,用于将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;

聚类区分模块,用于对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。

相应的,本申请还公开了一种基于海量数据的搜索装置,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理装置计算得到的,所述的搜索装置包括:

接收模块,用于接收用户的搜索请求,其中所述搜索请求中包括请求参数;

查找模块,用于在海量数据中查找与所述请求参数相对应的类别数据;

返回模块,用于将所述类别数据添加到搜索结果中并返回。

相应的,本申请还公开了一种基于海量数据的推荐装置,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理装置计算得到的,所述的推荐装置包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210141618.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top