[发明专利]一种海量数据的处理、搜索、推荐方法及装置在审
申请号: | 201210141618.0 | 申请日: | 2012-05-09 |
公开(公告)号: | CN103389966A | 公开(公告)日: | 2013-11-13 |
发明(设计)人: | 陈欢 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据 处理 搜索 推荐 方法 装置 | ||
技术领域
本申请涉及数据处理技术,特别是涉及一种海量数据的处理方法及装置,一种基于海量数据的搜索方法及装置,一种基于海量数据的推荐方法及装置。
背景技术
当今社会的信息技术高速发展,一个网络平台上每天处理的数据就可以达到了千万级,海量数据的处理问题也引起了越来越多的关注。
海量数据处理方法中的一类是,通过对海量数据进行处理以区分不同的数据,例如,对海量数据进行聚类。但有时海量数据的稀疏性比较大,会导致海量数据在处理后,数据之间的差异不明显,不能很好的区分出各个数据的不同。
例如,将海量数据处理应用到产品推荐领域,用户数量是海量的,但是产品标签确实有限的,若数据集是N行13列的矩阵,每一行表示一个用户,第一列是用户id,后面的12列是用户标签,比如奶粉同好——品牌、奶粉同好——营养、孕产妇同好——注重保养等,这些标签体现了用户的特性,取3个月的用户数据。
上述数据存在3个问题:1)各个用户标签下的数据量纲不同;2)各个数据的区间跨度不同;3)数据稀疏性比较大。因此,对上述数据集进行改进,原有的12个标签中每个标签值作为独立标签,如奶粉同好——品牌下有A、B等,那么新的标签就会有奶粉同好——品牌——A、奶粉同好——品牌——B等。如此就生成了59个用户标签,每个用户在每个用户标签下有购买行为则为1,反之则为0。
经过上述改进后各个用户标签下的数据量纲相同,并且各个数据的区间跨度也相同了,但由于改进使得用户标签更加细化,进而导致数据的稀疏性加大,因此在后续海量数据在处理中,数据的区分性更加不明显。
发明内容
本申请提供一种海量数据的处理方法及装置,以解决是原始数据稀疏性较大导致数据区分的效果不明显的问题。
相应的,本申请还提供了一种基于海量数据的搜索方法及装置,一种基于海量数据的推荐方法及装置。
为了解决上述问题,本申请公开了一种海量数据的处理方法,包括:
将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;
对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;
对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。
相应的,本申请还公开了一种基于海量数据的搜索方法,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理方法计算得到的,所述的搜索方法包括:
接收用户的搜索请求,其中所述搜索请求中包括请求参数;
在海量数据中查找与所述请求参数相对应的类别数据;
将所述类别数据添加到搜索结果中并返回。
相应的,本申请还公开了一种基于海量数据的推荐方法,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理方法计算得到的,所述的推荐方法包括:
对所述海量数据中各个类别数据的属性进行分析,得到至少一个属性;
针对所述类别数据对应的用户,根据所述属性对应的推荐数据,向所述用户推荐相应的信息。
相应的,本申请还公开了一种海量数据的处理装置,包括:
存储模块,用于将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;
分解模块,用于对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;
重构模块,用于将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;
聚类区分模块,用于对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。
相应的,本申请还公开了一种基于海量数据的搜索装置,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理装置计算得到的,所述的搜索装置包括:
接收模块,用于接收用户的搜索请求,其中所述搜索请求中包括请求参数;
查找模块,用于在海量数据中查找与所述请求参数相对应的类别数据;
返回模块,用于将所述类别数据添加到搜索结果中并返回。
相应的,本申请还公开了一种基于海量数据的推荐装置,所述海量数据中包括类别数据,所述类别数据是通过上述一种海量数据的处理装置计算得到的,所述的推荐装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210141618.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种倍半萜类化合物在制备杀螨药物中的应用
- 下一篇:永磁体同步马达的转子
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置