[发明专利]一种分布式多元异构数据融合方法在审
申请号: | 201811019744.2 | 申请日: | 2018-09-03 |
公开(公告)号: | CN109408586A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 周先东;刘国庆;章文友;孟彦;朱静轩 | 申请(专利权)人: | 中新网络信息安全股份有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/25;G06F16/215 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 230088 安徽省合肥*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据转换模块 数据缓存池 融合 数据获取模块 清洗 异构数据 源数据 切割 数据融合技术 数据融合模块 缓存 原始数据源 大数据量 格式转换 关键步骤 获取数据 目标数据 配置文件 数据缓存 数据集合 数据融合 原始数据 转换 拉取 | ||
1.一种分布式多元异构数据融合方法,其特征在于,包括数据获取模块,数据转换模块、数据融合模块,具体实施步骤包括:
S1,建立并提交原始数据源配置文件;
S2,所述数据获取模块将配置文件中的源数据进行拉取;
S3,任务切割:根据数据主键ID规则将大数据量数据集合切分成同等大小的数据集合;
S4,将得到的数据集合缓存至数据缓存池;
S5,所述数据转换模块从数据缓存池中获取数据并对获取的数据进行清洗;
S6,所述数据转换模块再将清洗后的数据进行格式转换;
S7,所述数据转换模块将转换后的数据缓存至数据缓存池中;
S8,所述数据融合模块从所述S1中的配置文件中获取目标源数据;
S9,所述数据融合模块将数据缓存池中的数据写入到目标源数据中;
S10,整个融合过程以流水式方式循环,直至所有数据融合完毕,最终数据缓存池中再无数据。
2.根据权利要求1所述的一种分布式多元异构数据融合方法,其特征在于,所述S2中的拉取方式为分布式方法。
3.根据权利要求1所述的一种分布式多元异构数据融合方法,其特征在于,所述S5中清洗的方式为过滤空行数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中新网络信息安全股份有限公司,未经中新网络信息安全股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811019744.2/1.html,转载请声明来源钻瓜专利网。