[发明专利]大数据处理方法及平台在审
申请号: | 201410113875.2 | 申请日: | 2014-03-25 |
公开(公告)号: | CN104951446A | 公开(公告)日: | 2015-09-30 |
发明(设计)人: | 岳赟;黄冀;宁智 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/06 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 党晓林 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 平台 | ||
技术领域
本申请涉及大数据处理技术领域,特别涉及一种大数据处理方法及平台。
背景技术
互联网每天产生着巨大数量的数据。例如,国内的博客、微博、交易平台,国外的Twitter、Facebook等社交网络,每天都在产生着海量的数据。数据已经渗透到每一个行业和业务职能领域,交易过程、产品使用和人类行为都可以数据化。可见,数据已成为重要的生产因素。
这些数据看似庞杂没有规律可循,但是,从整体分布上,有存在一定的特性,能够反映某些特点。从海量庞杂的数据中,如何挖掘、处理得到有用的信息,是大数据和数据挖掘(DataMining)领域的重要研究课题。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
大数据挖掘中,一种重要的处理是对大数据进行聚类处理。大量的数据对象的集合可被划分为一系列有意义的子集,即聚类。聚类分析是把一组数据对象按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等多种领域。
聚类处理通常包括对数据对象分组,把相似的数据对象聚在一个类里。现有技术中一种典型的聚类方法包括K-MEANS算法。这种算法接收输入的聚类个数k,并接收包含N个数据对象的数据库,将该N个数据对象输出至满足方差最小标准的k个聚类中。划分至k个聚类中的N个数据对象,同一聚类中的数据对象相似度较高,而不同聚类中的数据对象相似度较小。通常,这种聚类相似度可以利用各聚类中数据对象的均值所获得一个“中心对象”(引力中心)来进行计算。
K-MEANS算法的实现过程具体包括:
(1)从n个数据对象任意选择k个对象作为初始聚类中心;
(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
(3)重新计算每个(有变化)聚类的均值(中心对象);
(4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤(2)。
在实现本申请过程中,发明人发现现有技术中至少存在如下问题:
现有技术中采用K-MEANS算法进行聚类的过程,常针对n为固定值的情况。对于数据数量n为变化值的情况,在处理过程中,n每变化一次,例如n的值增加1个,对应的情况例如需要处理的数据增加1个新的数据记录,则需要重新执行上述步骤(1)~(4)的过程。
对于大数据而言,需要相当大的硬件资源执行上述聚类过程,且当数据数量发生变化时需要重新执行一次上述过程。这种方式占用硬件资源的很大开销。
发明内容
本申请实施例的目的是提供一种大数据处理方法及平台,以节省硬件资源的开销。
为解决上述技术问题,本申请实施例提供一种大数据处理方法及平台是这样实现的:
一种大数据处理方法,包括:
接收包含用户第一数据的请求信息;
如果所述第一数据大于预定限额,查询所述用户的历史数据;
基于所述历史数据在聚类后的分类中查找对应分类;
将查找到的对应分类按照预定映射规则得到动态额度;
如果所述第一数据不大于预定限额与动态额度之和,则批准所述请求信息。
一种大数据处理平台,包括:
接收单元,用于接收包含用户第一数据的请求信息;
查询单元,用于当所述第一数据大于预定限额时,查询所述用户的历史数据;
查找单元,基于所述历史数据在聚类后的分类中查找对应分类;
映射单元,用于将查找到的对应分类按照预定映射规则得到动态额度;
审核单元,用于当所述第一数据不大于预定限额与动态额度之和时,批准所述请求信息。
由以上本申请实施例提供的技术方案可见,本申请实施例中的聚类可以预先根据预定数量的大数据完成。在新接收到用户传来数据请求的情况下,不需要将包括该新接收数据的大量数据重新进行聚类,相反,基于所述用户历史数据在聚类后的分类中可以查找到对应分类,从而依据预定映射规则可以得到动态额度。这样,可以节省硬件资源的开销。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410113875.2/2.html,转载请声明来源钻瓜专利网。