[发明专利]一种离线数据批量更新方法、装置和分布式存储系统在审
申请号: | 201910463475.7 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110188111A | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | 龚兵;檀伊潮;杜春鹏;赵辉 | 申请(专利权)人: | 上海优扬新媒信息技术有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/953 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 201800 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 批量更新 离线 目标数据 加载 分布式存储系统 数据更新周期 离线数据 目标位置 生成数据 原始数据 在线检索 更新 存储节点 数据格式 数据处理 挖掘 耗时 申请 | ||
本申请实施例公开一种离线数据批量更新方法、装置及分布式存储系统,该方法获取离线挖掘的原始数据,对原始数据进行数据处理,离线生成数据格式满足线上加载需求的目标数据。当达到数据更新周期时,只需将数据格式满足线上加载需求的目标数据更新到目标位置。该方法将离线挖掘得来数据,通过离线的方式快速地生成数据格式满足线上加载需求的目标数据,这样,在达到数据更新周期需要对目标位置的数据进行批量更新时,只需将已经离线得到的满足线上加载需求的目标数据更新到分布式存储系统的存储节点上,无需进行其他处理,且由于离线更新与在线检索分离,避免在线检索对在线批量更新的影响,从而提高数据批量更新的速率,减少数据批量更新的耗时。
技术领域
本申请涉及互联网领域,特别是涉及一种离线数据批量更新方法、装置和分布式存储系统。
背景技术
互联网金融近几年得到了飞速的发展,给很多中小企业和个人解决了部分贷款的需求,互联网金融的出现很好弥补了传统金融机构线下审核和放款手段这个缺陷,但是它又面临着线上交易的风险,因此,风控策略是互联网金融的核心。
而风控策略就必然离不开各种各样的风控模型,为了保证在不同的阶段都能用风控模型进行很好的风险控制,风控模型需要海量用户的不同维度的特征数据作为基础,相关在线服务场景上经常存在百T级以上的查询需求,并且为了加速风控模型的迭代,分布式存储系统中的特征数据能非常快速的批量更新是非常必要的。
目前,采用在线批量更新的方法对分布式存储系统中的特征数据进行更新。但是,这种方法在将新数据批量更新到分布式存储系统的存储节点上时,需要对新数据进行一系列处理,且由于在线检索对在线批量更新的影响,使得数据批量更新的速率较慢,耗时过长。
发明内容
为了解决上述技术问题,本申请提供了离线数据批量更新方法、装置和分布式存储系统,提高数据批量更新的速率,减少数据批量更新的耗时。
本申请实施例公开了如下技术方案:
第一方面,本申请提供一种离线数据批量更新方法,所述方法包括:
获取离线挖掘的原始数据,所述原始数据用于对在线检索模块目标位置的数据进行更新;
对所述原始数据进行数据处理,离线生成数据格式满足线上加载需求的目标数据;
当达到数据更新周期时,将所述目标数据更新到所述目标位置。
可选的,当达到数据更新周期时,将所述数据分片更新到所述目标位置之前,所述方法还包括:
将所述目标数据存储在分布式文件系统中。
可选的,若所述目标数据存储在分布式文件系统中,所述目标数据为数据分片。
可选的,对所述原始数据进行数据处理,离线生成数据格式满足线上加载需求的目标数据,包括:
基于MapReduce机制设置与所述目标位置分片一致的Map任务和Reduce任务;
通过所述Map任务和Reduce任务离线生成数据格式满足线上加载需求的数据分片。
可选的,当达到数据更新周期时,将所述数据分片更新到所述目标位置之前,所述方法还包括:
确定压缩参数,利用所述压缩参数对所述数据分配进行压缩;
所述将所述数据分片更新到所述目标位置,包括:
将所述数据分片和所述压缩参数更新到所述目标位置,以便在线检索系统利用所述压缩参数对压缩后的数据分片进行在线解压。
第二方面,本申请实施例提供一种离线数据批量更新装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海优扬新媒信息技术有限公司,未经上海优扬新媒信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910463475.7/2.html,转载请声明来源钻瓜专利网。