[发明专利]一种基于json的实时抽取方法在审
申请号: | 202010631379.1 | 申请日: | 2020-07-03 |
公开(公告)号: | CN111797154A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 何静;霍荣 | 申请(专利权)人: | 紫光云技术有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 天津滨海科纬知识产权代理有限公司 12211 | 代理人: | 耿树志 |
地址: | 300459 天津市滨海新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 json 实时 抽取 方法 | ||
本发明提供了一种基于json的实时抽取方法,包括以下步骤:用户输入json数据;配置kafka源;配置目标;将json数据送到配置的kafka源;进入目表数据库,根据配置信息进行配置;实现实时抽取数据。本发明有益效果:使得复杂json数据结构的抽取映射可配、流程可配,扩展性好;实时抽取加载流程,以api和kafka为支撑,具有低延迟、实时性好的特点;对于大批量数据,自动批同步,降低整体数据延迟,提高实时可靠性,稳定性好。
技术领域
本发明属于json的数据抽取技术领域,尤其是涉及一种基于json的实时抽取方法。
背景技术
非关系型数据库有存储格式多、扩展性好、处理高并发、大批量数据的能力强、内存级数据库、查询速度快等优点。非关系型数据库数据存储也成为关系型数据库存储替代方案之一。对于数据集成平台来说,抽取非关系型数据到关系型数据库中也是必要功能之一。
Mongodb就是一个典型的非关系型数据库,其存储数据结构是文档型。也多用于存储json类型数据结构。但是用Mongodb存储数据存在几个显著的问题:存储类型是json文档,冗余数据多;文档层级过多、过深,维护成本太高。
以mongodb为数据存储数据,随着时间推移,数据越来越难维护的问题,当然现在经过调优结构化mongodb数据存储格式,以统一对象存储,但是存储数据结构不能太深,如图1所示,是从mongodb抽取数据落入mysql(关系型数据库)的模板。
但是这里并没有json解析的功能,无法满足用户想把一个json数组逐个元素抽出,将一个数组抽成多条mysql数据,不能支持复杂结构的抽取和映射到目表数据库。
发明内容
有鉴于此,本发明旨在提出一种基于json的实时抽取方法,以解决上述问题的不足之处。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于json的实时抽取方法,包括以下步骤:
A.用户输入json数据;
B.配置kafka源;
C.配置目标;
D.将json数据送到配置的kafka源;
E.进入目表数据库,根据步骤C中的配置信息进行配置;
F.实现实时抽取数据。
进一步的,所述步骤B中配置kafka源的过程为:从json树形数据结构中勾选实际需要的字段,或自定义输入实际需要的字段。
进一步的,所述步骤C中将源字段和目标字段根据映射规则形成映射关系。
进一步的,所述源字段和目标字段的映射规则为:如果源字段和目标字段相同则自动映射成功;如果不同,需要用户根据业务场景手动选择。
进一步的,所述步骤D中json数据进入kafka后进行数据扁平化处理。
进一步的,所述步骤D中用户主动将json数据放入kafka中和kafka耦合。
进一步的,所述步骤D中开放api接口,为用户提供数据录入接口,生成用户密钥,api接口通过密钥将用户数据加载到配置的kafka源中。
相对于现有技术,本发明所述的基于json的实时抽取方法具有以下优势:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于紫光云技术有限公司,未经紫光云技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010631379.1/2.html,转载请声明来源钻瓜专利网。