[发明专利]一种海量数据的处理、搜索、推荐方法及装置在审
申请号: | 201210141618.0 | 申请日: | 2012-05-09 |
公开(公告)号: | CN103389966A | 公开(公告)日: | 2013-11-13 |
发明(设计)人: | 陈欢 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据 处理 搜索 推荐 方法 装置 | ||
1.一种海量数据的处理方法,其特征在于,包括:
将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;
对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;
对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。
2.根据权利要求1所述的方法,其特征在于,所述将原始矩阵A中的原始数据分布到若干个处理节点上进行处理,包括:
若原始矩阵A中每一行表示一个用户,则以行为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
若原始矩阵A中每一列表示一个用户,则以列为单位对原始矩阵A进行分割,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理。
3.根据权利要求2所述的方法,其特征在于,原始矩阵A中的原始数据的数据标识由一个底数加两位下标构成,
若原始矩阵A中每一行表示一个用户,所述奇异值分解的方法包括:
在每个处理节点上,将一行的每一个原始数据分别乘以该行中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的下标加上第二个原始数据的数据标识中的末位下标。
4.根据权利要求2所述的方法,其特征在于,原始矩阵A中的原始数据的数据标识由一个底数加两位下标构成,
若原始矩阵A中每一列表示一个用户,所述奇异值分解的方法包括:
在每个处理节点上,将一列的每一个原始数据分别乘以该列中的所有原始数据,得到对应第一处理数据并将数据标识中的下标标记为所述原始数据的数据标识中的末位下标加上第二个原始数据的数据标识中的下标。
5.根据权利要求3所述的方法,其特征在于,若原始矩阵A中每一行表示一个用户,所述奇异值分解的方法还包括:
将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的末两位下标相同的相乘数据分布到同一个处理节点上;
将数据标识中的末两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的末两位下标;
将所述第二处理数据构成相加矩阵C。
6.根据权利要求4所述的方法,其特征在于,若原始矩阵A中每一列表示一个用户,所述奇异值分解的方法还包括:
将所述第一处理数据重新分发到所述处理节点上,其中,数据标识中的前两位下标相同的相乘数据分布到同一个处理节点上;
将数据标识中的前两位下标相同的第一处理数据相加,得到对应的第二处理数据并将对应数据标识中的下标标记为相乘数据的前两位下标;
将所述第二处理数据构成相加矩阵C。
7.根据权利要求5或6任一所述的方法,其特征在于,还包括:
计算所述相加矩阵C的特征值λ,和特征向量x。
8.根据权利要求7所述的方法,其特征在于,还包括:
将所述特征值λ构成第一对角矩阵S。
9.根据权利要求7所述的方法,其特征在于,还包括:
若原始矩阵A中每一行的原始数据表示一个用户,则将所述特征向量x分别进行归一化;
将所述归一化后的特征向量作为第三处理数据,由所述第三处理数据构成第二酉矩阵V;
10.根据权利要求7所述的方法,其特征在于,还包括:
若原始矩阵A中每一列的原始数据表示一个用户,则原始矩阵A的转置矩阵AT乘以所述特征向量x;
将对应相乘后的结果进行归一化,得到对应的第三处理数据;
将所述第三处理数据构成第二酉矩阵V。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210141618.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种倍半萜类化合物在制备杀螨药物中的应用
- 下一篇:永磁体同步马达的转子
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置