[发明专利]数据处理方法及装置有效
申请号: | 201910345365.0 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110209656B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 殷苏娜;邢钦华;郑佰云 | 申请(专利权)人: | 北京互金新融科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/28 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本发明公开了一种数据处理方法及装置。其中,该方法包括:从数据中清洗出目标数据,其中,目标数据包括报文形式的数据的字段和值;对多个目标数据进行去重处理;将去重后的多个目标数据,同时落地存储到多个表的存储文件中,且保证存储文件数量可控、大小均衡。本发明解决了相关技术中仅能对单个表的数据落地的方式,效率低的技术问题。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法及装置。
背景技术
风险控制中的反欺诈技术需要分析多维度的数据,通过对有效数据的采集和分析,相关技术中海量数据大多基于Hive存储和离线计算,数据落地到Hive表通常采用的是传统HiveSQL的写法和MapReduce MR框架。但是,目前的MapReduce落地算法局限于对单个表的落地,并没有一套通用的针对海量数据做批量落地的方案,导致数据落地效率较低,灵活度较小。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法及装置,以至少解决相关技术中仅能对单个表的数据落地的方式,效率低的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:从所述数据中清洗出目标数据;对多个所述目标数据进行去重处理;将去重后的多个所述目标数据,通过动态分区法,同时落地存储到多个表的存储文件中,使得表的存储文件可控且大小均衡。
可选的,从所述数据中清洗出目标数据包括:确定多个所述表分别对应的表名;对所述数据进行分析,读取与多个所述表名对应的表名标识字段;根据所述表名标识字段,确定所述表名对应的配置文件;根据所述配置文件,分别从多个所述数据的字段中计算所述字段对应的值,其中,所述目标数据包括所述表名标识字段和所述值。
可选的,对多个所述目标数据进行去重处理包括:建立多个所述目标数据的组合键,其中,所述组合键包括所述目标数据对应的表名标识字段,所述目标数据的日期,以及所述目标数据的标识ID;根据所述组合键,通过映射归约MapReduce框架进行去重。
可选的,根据所述组合键,通过所述MapReduce框架进行去重包括:通过所述MapReduce框架的Map部分,根据所述组合键对多个所述目标数据进行排序;根据所述标识ID,将分类好的多个所述目标数据分发到不同的存储区;通过所述MapReduce框架的Reduce部分,根据所述组合键对所述目标数据进行组合,将组合后的所述目标数据,输入去重函数;根据所述去重函数对所述目标数据进行去重。
可选的,根据所述标识ID,将分类好的多个所述目标数据分发到不同的存储区之后包括:将分发到不同的存储区的目标数据进行随机混合;通过所述MapReduce框架的Reduce部分,根据所述组合键对随机混合后的多个所述目标数据进行再次排序。
可选的,根据所述组合键对多个所述目标数据进行排序,与根据所述组合键对随机混合后的多个所述目标数据进行再次排序的方式相同,具体包括:根据所述组合键中的所述表名标识字段多个所述目标数据进行排序;在所述目标数据的表名标识字段相等的情况下,根据所述目标数据的标识ID进行排序;在所述目标数据的所述标识数据ID相等的情况下,根据所述目标数据的日期进行排序。
可选的,根据所述组合键对所述目标数据进行组合,将组合后的所述目标数据,输入去重函数包括:通过所述表名标识字段对所述目标数据进行组合;在所述表名标识字段相同的情况下,根据所述标识ID进行组合;在所述标识ID相同的情况下,根据所述标识ID相同的所述目标数据,确定所述目标数据的日期最早的组合键;将所述表名标识字段与所述标识ID均相同的多个目标数据,以及所述日期最早的组合键,输入所述去重函数;由所述去重函数输出日期最早的所述表名标识字段和所述标识ID对应的目标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京互金新融科技有限公司,未经北京互金新融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910345365.0/2.html,转载请声明来源钻瓜专利网。