[发明专利]一种数据处理方法及设备有效

专利信息
申请号: 201510783943.0 申请日: 2015-11-16
公开(公告)号: CN106709572B 公开(公告)日: 2019-11-08
发明(设计)人: 毛仁歆 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06N3/12 分类号: G06N3/12
代理公司: 北京睿博行远知识产权代理有限公司 11297 代理人: 龚家骅
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理单元 选择概率 数据处理 数据处理设备 数据处理效率 分布式实现 迭代过程 海量数据 交叉处理 数据组合 遗传算法 适应度 数据集 数组 筛选 申请
【说明书】:

本申请公开了一种数据处理方法。在根据与数据处理设备中的各数据处理单元中的数据集所对应的适应度值确定与各数据处理单元对应的选择概率值之后,根据各数据处理单元对应的选择概率值从各数据处理单元中选择用于交叉处理的数组,随后根据遗传算法对数组进行处理。从而能够针对海量数据集分布式实现每一步迭代过程,并从中筛选最优数据组合,提高了数据处理效率。

技术领域

本申请涉及通信技术领域,特别涉及一种数据处理方法。本申请同时还涉及一种数据处理设备。

背景技术

传统的特征选择遗传算法是计算机科学人工智能领域中用于解决最优化的一种搜索启发式算法,遗传算法能在有限时间中从2^p种特征组合中寻找到近似最优的组合,同时分布式的遗传算法则能够在海量数据集上分布式实现每一步迭代过程,不受单机计算、存储能力的限制。

目前,传统的特征选择过程需要在p个变量中尝试2^p种组合,并对每一种组合进行建模以寻找最优模型,其中“最优模型”的定义即拥有最佳AUC或BIC或R^2等指标的模型;遗传算法能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应的控制搜索过程以求得最优解,同时利用遗传算法进行特征选择的方法则使用适者生存的原则,在潜在的特征组合中逐次产生一个近似最优解的方案,并在有限时间中从2^p种特征组合中寻找到近似最优的组合;分布式的遗传算法则能够将每一次建模并计算指标的过程进行分布式实现,绕开了单机版计算能力和存储能力的瓶颈。

然而,发明人在实现本申请的过程中发现,当数据量级达到数十亿的时候,现有技术中的单机无法在这么大的数据集上进行一次建模过程,从而导致无法完成指标计算和模型训练。因此,如何快速地针对海量数据进行有效的筛选,从中选择有用的特征数据进行后续处理,成为本领域技术人员亟待解决的技术问题。

发明内容

本申请提供了一种数据处理方法,针对海量的数据实现自动匹配以及优化处理,从中筛选最优数据组合,从而提高数据处理效率。该方法包括:

根据各所述数据处理单元的数据集对应的适应度值确定各所述数据处理单元的选择概率值;

根据各所述数据处理单元的选择概率值从各所述数据处理单元中选择用于交叉处理的数组;

根据预设的算法对所述数组进行处理,以获取最优数据组合。

优选地,在根据与各所述数据处理单元中的数据集所对应的适应度值确定与各所述数据处理单元对应的选择概率值之前,还包括:

在所述数据处理单元存储所述数据集以及一个随机生成的数组;

根据所述数据处理单元中的数据集生成与所述数据处理单元对应的适应度值。

优选地,所述算法具体为遗传算法,在根据预设的算法对所述数组进行处理之后,还包括:

判断当前进程遗传算法处理的次数是否超过预设的阈值,

若是,将所述遗传算法处理后的数组作为最优特征;

若否,根据各所述数据处理单元对应的选择概率值从各所述数据处理单元中选择用于交叉处理的数组。

优选地,根据预设的算法对所述数组进行处理,具体为:

对所述数组进行交叉处理;

将进行交叉处理后的数组进行变异处理。

相应地,本申请还提出了一种数据处理设备,所述设备包括多个数据处理单元,还包括:

确定模块,根据各所述数据处理单元的数据集对应的适应度值确定各所述数据处理单元的选择概率值;

选择模块,根据各所述数据处理单元的选择概率值从各所述数据处理单元中选择用于交叉处理的数组;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510783943.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top