[发明专利]一种大数据处理方法及装置有效
申请号: | 201710899237.1 | 申请日: | 2017-09-28 |
公开(公告)号: | CN107729423B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 王勇 | 申请(专利权)人: | 贝壳找房(北京)科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种大数据处理方法,其特征在于,包括:
若确定至少一个源数据表中的所有待处理字段对应的数据构建完成,则提取所述至少一个源数据表中的所有待处理字段对应的数据,以及每一源数据表对应的主键;所述所有待处理字段为所述至少一个源数据表中的部分字段;
根据目的数据表的存储格式对每一个待处理字段对应的数据进行格式转换,获得转换后数据;
根据所述每一源数据表对应的主键和所述目的数据表对应的主键,将所述转换后数据加载到目的数据表中;
其中,所述根据所述每一源数据表对应的主键和所述目的数据表对应的主键,将所述转换后数据加载到目的数据表中,包括:
将所述每一源数据表对应的主键与所述目的数据表对应的主键进行比对,若目标源数据表对应的主键与所述目的数据表对应的主键相同,则将所述目标源数据表对应的转换后数据加载到目的数据表中;
在所述将所述转换后数据加载到目的数据表中之前,所述方法,还包括:
根据预设规则将所述转换后数据进行分割,获得多个分割后数据;
相应的,所述将所述转换后数据加载到目的数据表中,包括:
通过相应数量的服务器将所述多个分割后数据并行加载到所述目的数据表中;所述预设规则为按照时间戳进行截取。
2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
根据需求预先设置至少一个源数据表中各个字段的权重,根据各个字段的权重大小依次构建对应的数据。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述目的数据表为NoSql数据库。
4.一种大数据处理装置,其特征在于,包括:
提取模块,用于若确定至少一个源数据表中的所有待处理字段对应的数据构建完成,则提取所述至少一个源数据表中的所有待处理字段对应的数据,以及每一源数据表对应的主键;所述所有待处理字段为所述至少一个源数据表中的部分字段;
转换模块,用于根据目的数据表的存储格式对每一个待处理字段对应的数据进行格式转换,获得转换后数据;
加载模块,用于根据所述每一源数据表对应的主键和所述目的数据表对应的主键,将所述转换后数据加载到目的数据表中;
其中,所述加载模块,具体用于:
将所述每一源数据表对应的主键与所述目的数据表对应的主键进行比对,若目标源数据表对应的主键与所述目的数据表对应的主键相同,则将所述目标源数据表对应的转换后数据加载到目的数据表中;
所述装置,还包括:分割模块,用于:
根据预设规则将所述转换后数据进行分割,获得多个分割后数据;
相应的,所述加载模块,具体用于:
通过相应数量的服务器将所述多个分割后数据并行加载到所述目的数据表中;所述预设规则为按照时间戳进行截取。
5.根据权利要求4所述的装置,其特征在于,所述装置,还包括:
构建模块,用于根据需求预先设置至少一个源数据表中各个字段的权重,根据各个字段的权重大小依次构建对应的数据。
6.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-3任一项所述的方法。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-3任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房(北京)科技有限公司,未经贝壳找房(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710899237.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:医学成像方法及系统
- 下一篇:基于权重学习的着色方法和装置