[发明专利]一种基于json的实时抽取方法在审

申请号：	202010631379.1	申请日：	2020-07-03
公开（公告）号：	CN111797154A	公开（公告）日：	2020-10-20
发明（设计）人：	何静;霍荣	申请（专利权）人：	紫光云技术有限公司
主分类号：	G06F16/25	分类号：	G06F16/25
代理公司：	天津滨海科纬知识产权代理有限公司 12211	代理人：	耿树志
地址：	300459 天津市滨海新区***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 json 实时抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于json的实时抽取方法，包括以下步骤：用户输入json数据；配置kafka源；配置目标；将json数据送到配置的kafka源；进入目表数据库，根据配置信息进行配置；实现实时抽取数据。本发明有益效果：使得复杂json数据结构的抽取映射可配、流程可配，扩展性好；实时抽取加载流程，以api和kafka为支撑，具有低延迟、实时性好的特点；对于大批量数据，自动批同步，降低整体数据延迟，提高实时可靠性，稳定性好。

技术领域

本发明属于json的数据抽取技术领域，尤其是涉及一种基于json的实时抽取方法。

背景技术

非关系型数据库有存储格式多、扩展性好、处理高并发、大批量数据的能力强、内存级数据库、查询速度快等优点。非关系型数据库数据存储也成为关系型数据库存储替代方案之一。对于数据集成平台来说，抽取非关系型数据到关系型数据库中也是必要功能之一。

Mongodb就是一个典型的非关系型数据库，其存储数据结构是文档型。也多用于存储json类型数据结构。但是用Mongodb存储数据存在几个显著的问题：存储类型是json文档，冗余数据多；文档层级过多、过深，维护成本太高。

以mongodb为数据存储数据，随着时间推移，数据越来越难维护的问题，当然现在经过调优结构化mongodb数据存储格式，以统一对象存储，但是存储数据结构不能太深，如图1所示，是从mongodb抽取数据落入mysql(关系型数据库)的模板。

但是这里并没有json解析的功能，无法满足用户想把一个json数组逐个元素抽出，将一个数组抽成多条mysql数据，不能支持复杂结构的抽取和映射到目表数据库。

发明内容

有鉴于此，本发明旨在提出一种基于json的实时抽取方法，以解决上述问题的不足之处。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于json的实时抽取方法，包括以下步骤：

A.用户输入json数据；