[发明专利]一种分布式多元异构数据融合方法在审
申请号: | 201811019744.2 | 申请日: | 2018-09-03 |
公开(公告)号: | CN109408586A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 周先东;刘国庆;章文友;孟彦;朱静轩 | 申请(专利权)人: | 中新网络信息安全股份有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/25;G06F16/215 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 230088 安徽省合肥*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据转换模块 数据缓存池 融合 数据获取模块 清洗 异构数据 源数据 切割 数据融合技术 数据融合模块 缓存 原始数据源 大数据量 格式转换 关键步骤 获取数据 目标数据 配置文件 数据缓存 数据集合 数据融合 原始数据 转换 拉取 | ||
本发明涉及数据融合技术领域,具体涉及一种分布式多元异构数据融合方法,包括数据获取模块,数据转换模块、数据融合模块,具体实施步骤包括:建立并提交原始数据源配置文件、数据获取模块将源数据进行拉取、任务切割、将得到的数据集合缓存至数据缓存池、数据转换模块从数据缓存池中获取数据并对获取的数据进行清洗、数据转换模块再将清洗后的数据进行格式转换、数据转换模块将转换后的数据缓存至数据缓存池中。本发明的有益效果:本发明中的关键步骤是任务切割,通过从原始数据读取数据,存入数据缓存池中,再通过清洗,转换,将源数据融合到目标数据中,提高数据融合的速度,且实现大数据量分布式融合。
技术领域
本发明涉及数据融合技术领域,具体涉及一种分布式多元异构数据融合方法。
背景技术
随着互联网技术的飞快发展,各类数据之间相互融合成为各大行业急需解决的难题,目前虽然已有不同的解决方案,但大多只是针对特定业务场景的才能使用,无法做到通用场景下的数据互联互通或者轻定制化的融合需求。
通常的数据融合方法,就是简单的从一个数据库读取数据然后存储到另一个数据库中,但是目前的数据种类繁多,数据量大,有结构化和半结构化的数据,传统数据融合方法很难满足要求。
发明内容
本发明的目的在于克服现有技术中存在的问题,提供一种分布式多元异构数据融合方法,它可以实现支持绝大多结构化数据库和半结构化数据库、支持大数据量分布式融合。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现的:
一种分布式多元异构数据融合方法,包括数据获取模块,数据转换模块、数据融合模块,具体实施步骤包括:
S1,建立并提交原始数据源配置文件;
S2,所述数据获取模块将配置文件中的源数据进行拉取;
S3,任务切割:根据数据主键ID规则将大数据量数据集合切分成同等大小的数据集合;
S4,将得到的数据集合缓存至数据缓存池;
S5,所述数据转换模块从数据缓存池中获取数据并对获取的数据进行清洗;
S6,所述数据转换模块再将清洗后的数据进行格式转换;
S7,所述数据转换模块将转换后的数据缓存至数据缓存池中;
S8,所述数据融合模块从所述S1中的配置文件中获取目标源数据;
S9,所述数据融合模块将数据缓存池中的数据写入到目标源数据中;
S10,整个融合过程以流水式方式循环,直至所有数据融合完毕,最终数据缓存池中再无数据。
进一步地,所述S2中的拉取方式为分布式方法。
进一步地,所述S5中清洗的方式为过滤空行数据。
本发明的有益效果:本发明中的关键步骤是任务切割,通过从原始数据读取数据,存入数据缓存池中,再通过清洗,转换,将源数据融合到目标数据中,提高数据融合的速度,且实现大数据量分布式融合。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中新网络信息安全股份有限公司,未经中新网络信息安全股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811019744.2/2.html,转载请声明来源钻瓜专利网。