[发明专利]电子装置、数据处理方法及计算机可读存储介质在审
申请号: | 201710914863.3 | 申请日: | 2017-09-30 |
公开(公告)号: | CN107807956A | 公开(公告)日: | 2018-03-16 |
发明(设计)人: | 吴振宇;刘睿恺;王建明;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙)44347 | 代理人: | 高杰,于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 装置 数据处理 方法 计算机 可读 存储 介质 | ||
技术领域
本发明涉及通信技术领域,尤其涉及一种电子装置、数据处理方法及计算机可读存储介质。
背景技术
ETL(Extract-Transform-Load,提取-转换-装载)是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照定义的数据仓库模型,将数据加载到数据仓库中去。目前,在对数据整理和对数据建模的过程中,需要技术人员投入大量精力一步步对数据ETL操作,然后在整理好的数据上一步步进行建模分析,包括选择参数、建模模型及调整具体模型结构,这种操作方式费时费力,数据处理效率低。
发明内容
本发明的目的在于提供一种电子装置、数据处理方法及计算机可读存储介质,旨在简化数据整理分析和建模过程中用户的操作,提高数据处理效率。
为实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的数据处理系统,所述数据处理系统被所述处理器执行时实现如下步骤:
S1,在获取数据源端的数据后,基于预设的数据类型对所获取的数据进行类型的转换处理,以及对转换处理后的数据进行异常处理及空值处理;
S2,在完成所有处理阶段的数据处理后,将最终处理阶段处理后的数据作为待建模的数据存储至预设的传递途径ETL Pipeline中;
S3,获取预设的多个机器算法模型及与各个机器算法模型对应的预设的模型参数范围,基于网格搜索grid search选取机器算法模型及与该机器算法模型对应的模型参数,以对待建模的数据进行建模。
优选地,所述数据处理系统被所述处理器执行时,还实现如下步骤:
在最终处理阶段之前,且在完成每一处理阶段的数据处理后,将各个处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中,或者,基于用户的设置将选定的处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中。
优选地,所述步骤S3包括:
对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练;
对训练后的机器算法模型的准确率进行验证;
选取准确率最高的机器算法模型及对应的模型参数,以对待建模的数据进行建模。
优选地,所述异常处理包括:处理数据中的噪音点或者数据中的乱码;所述空值处理包括:捕获数据中的空值字段,利用平均值、中位数、出现频率最高的值或用户设置的值填充所捕获的空值字段。
为实现上述目的,本发明还提供一种数据处理方法,所述数据处理方法包括:
S1,在获取数据源端的数据后,基于预设的数据类型对所获取的数据进行类型的转换处理,以及对转换处理后的数据进行异常处理及空值处理;
S2,在完成所有处理阶段的数据处理后,将最终处理阶段处理后的数据作为待建模的数据存储至预设的传递途径ETL Pipeline中;
S3,获取预设的多个机器算法模型及与各个机器算法模型对应的预设的模型参数范围,基于网格搜索grid search选取机器算法模型及与该机器算法模型对应的模型参数,以对待建模的数据进行建模。
优选地,所述步骤S2之前还包括:
在最终处理阶段之前,且在完成每一处理阶段的数据处理后,将各个处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中,或者,基于用户的设置将选定的处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中。
优选地,所述步骤S3包括:
对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练;
对训练后的机器算法模型的准确率进行验证;
选取准确率最高的机器算法模型及对应的模型参数,以对待建模的数据进行建模。
优选地,所述异常处理包括:处理数据中的噪音点或者数据中的乱码;所述空值处理包括:捕获数据中的空值字段,利用平均值、中位数、出现频率最高的值或用户设置的值填充所捕获的空值字段。
优选地,所述数据类型包括整数类型、浮点数类型及字符串类型。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理系统,所述数据处理系统被处理器执行时实现上述的数据处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710914863.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无线txt阅读器及阅读方法
- 下一篇:实体库生成方法及装置