[发明专利]一种分布式架构的特征自动生成方法和系统在审
申请号: | 202011283601.X | 申请日: | 2020-11-17 |
公开(公告)号: | CN112380205A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 杨帆;周楚杰;黄馨 | 申请(专利权)人: | 北京融七牛信息技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/27 |
代理公司: | 北京山允知识产权代理事务所(特殊普通合伙) 11741 | 代理人: | 胡冰 |
地址: | 100043 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 架构 特征 自动 生成 方法 系统 | ||
本发明涉及一种分布式架构的特征自动生成方法,包括:S1,从数据库中抽取样本对应的数据,每张表存储为一张新的数据表;S2,对抽取的数据进行清洗加工;S3,将数据表进行分区,使得归属同一个样本的所有数据都存放到同一个分区中;S4,采用分布式计算引擎对数据进行特征生成;S5,将每个子节点生成的特征数据文件进行合并,合成一个完整的特征数据文件。本发明还对应提出了一种分布式架构的特征自动生成系统。本发明实现了一种针对特征自动生成算法的分布式架构,能够应用分布式计算高效率的进行特征自动生成,能够进行大数据处理,保证了特征的高效生成。
技术领域
本发明涉及机器学习技术领域,更具体地,涉及一种分布式架构的特征自动生成方法和系统。
背景技术
随着大数据人工智能技术的普及,通过机器学习算法进行数据分析处理的方法逐步被各个行业的工程人员所采用。同时,为了应对日益增长的大数据处理需要,分布式计算已经被广泛应用到数据处理与计算中。
机器学习算法的输入数据被称为特征,是通过一系列工程方法将原始数据加工而成的。目前,特征生成方法有如下几种:
1)人工特征生成:技术人员经过底层数据的清洗,筛选,特征逻辑的设计,开发特征计算代码等过程。需要花费技术人员大量的时间,效率很低。尤其是需要对大数据进行加工处理时,需要根据处理方法针对性的设计分布式处理架构,此时依赖于技术人员的处理经验与工程能力。
2)半自动特征生成:现有的机器学习平台,可基于图形界面的交互方式来完成特征生成流程。流程主要为:技术人员指定特征生成逻辑,并手动输入到平台中,平台根据用户指定特征生成逻辑进行计算,生成特征。该方法依赖于技术人员的特征开发经验,无法对非专业人员使用,并且在需要生成大量特征时,效率较低。
3)自动特征生成:自动特征生成是将特征生成的逻辑进行抽象、实现后固定下来,用于自动处理数据生成特征的一种方法。自动特征生成一般不依赖于使用人员的技术能力与业务经验,是一种更加智能化、高效率、低门槛的特征生成方法。但是目前自动特征生成算法仍不成熟,尤其在大数据处理的实际情况下,还没有可靠的分布式计算方法。
发明内容
针对背景技术中的问题,本发明的明目的是:自动对原始数据进行处理分析,生成正确的有效的特征。对于非专业技术人员,可以通过本发明的系统方便快捷的生成供模型建模使用的特征变量。对于专业技术人员,可以通过本发明的系统快速测试、分析或迭代特征。
本发明提出一种分布式架构的特征自动生成方法,包括:S1,从数据库中抽取样本对应的数据,每张表存储为一张新的数据表;S2,对抽取的数据进行清洗加工;S3,将数据表进行分区,使得归属同一个样本的所有数据都存放到同一个分区中;S4,采用分布式计算引擎对数据进行特征生成;S5,将生成的特征数据文件进行合并,合成一个完整的特征数据文件。
本发明还提出一种分布式架构的特征自动生成系统,包括:数据抽取单元,从数据库中抽取样本对应的数据,每张表存储为一张新的数据表;数据加工单元,对抽取的数据进行清洗加工;数据分区单元,将数据表进行分区,使得归属同一个样本的所有数据都存放到同一个分区中;特征生成单元,为分布式计算引擎,对数据进行特征生成;特征合并单元,将特征生成单元生成的特征数据文件进行合并,合成一个完整的特征数据文件。
与现有技术相比,本发明的优点有:
(1)实现了一种针对特征自动生成算法的分布式架构,能够应用分布式计算高效率的进行特征自动生成,能够进行大数据处理,保证了特征的高效生成。
(2)该架构解决了分布式计算场景下特征自动生成需要保证的特征一致性问题,满足并行生成特征。
附图说明
为了更容易理解本发明,将通过参照附图中示出的具体实施方式更详细地描述本发明。这些附图只描绘了本发明的典型实施方式,不应认为对本发明保护范围的限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京融七牛信息技术有限公司,未经北京融七牛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011283601.X/2.html,转载请声明来源钻瓜专利网。