[发明专利]一种海量数据的处理、搜索、推荐方法及装置在审

专利信息
申请号: 201210141618.0 申请日: 2012-05-09
公开(公告)号: CN103389966A 公开(公告)日: 2013-11-13
发明(设计)人: 陈欢 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/16 分类号: G06F17/16;G06F17/30
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 苏培华
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 海量 数据 处理 搜索 推荐 方法 装置
【权利要求书】:

1.一种海量数据的处理方法,其特征在于,包括:

将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;

对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;

将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;

对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。

2.根据权利要求1所述的方法,其特征在于,所述将原始矩阵A中的原始数据分布到若干个处理节点上进行处理,包括:

若原始矩阵A中每一行表示一个用户,则以行为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;

若原始矩阵A中每一列表示一个用户,则以列为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理。

3.根据权利要求2所述的方法,其特征在于,原始矩阵A中的原始数据的数据标识由一个底数加两位下标构成,

若原始矩阵A中每一行表示一个用户,所述奇异值分解的方法包括:

在每个处理节点上,将一行的每一个原始数据分别乘以该行中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的下标加上第二个原始数据的数据标识中的末位下标。

4.根据权利要求2所述的方法,其特征在于,原始矩阵A中的原始数据的数据标识由一个底数加两位下标构成,

若原始矩阵A中每一列表示一个用户,所述奇异值分解的方法包括:

在每个处理节点上,将一列的每一个原始数据分别乘以该列中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的末位下标加上第二个原始数据的数据标识中的下标。

5.根据权利要求3所述的方法,其特征在于,若原始矩阵A中每一行表示一个用户,所述奇异值分解的方法还包括:

将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的末两位下标相同的相乘数据分布到同一个处理节点上;

将数据标识中的末两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的末两位下标;

将所述第二处理数据构成相加矩阵C。

6.根据权利要求4所述的方法,其特征在于,若原始矩阵A中每一列表示一个用户,所述奇异值分解的方法还包括:

将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的前两位下标相同的相乘数据分布到同一个处理节点上;

将数据标识中的前两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的前两位下标;

将所述第二处理数据构成相加矩阵C。

7.根据权利要求5或6任一所述的方法,其特征在于,还包括:

计算所述相加矩阵C的特征值λ,和特征向量x。

8.根据权利要求7所述的方法,其特征在于,还包括:

将所述特征值λ构成第一对角矩阵S。

9.根据权利要求7所述的方法,其特征在于,还包括:

若原始矩阵A中每一行的原始数据表示一个用户,则将所述特征向量x分别进行归一化;

将所述归一化后的特征向量作为第三处理数据,由所述第三处理数据构成第二酉矩阵V;

10.根据权利要求7所述的方法,其特征在于,还包括:

若原始矩阵A中每一列的原始数据表示一个用户,则原始矩阵A的转置矩阵AT乘以所述特征向量x;

将对应相乘后的结果进行归一化,得到对应的第三处理数据;

将所述第三处理数据构成第二酉矩阵V。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210141618.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top