[发明专利]一种基于异构数据源的海量数据处理方法及系统在审

专利信息
申请号: 202310350188.1 申请日: 2023-04-04
公开(公告)号: CN116414816A 公开(公告)日: 2023-07-11
发明(设计)人: 师莎;盛振宇;汪飞;王钢 申请(专利权)人: 中电云数智科技有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/2455;G06F16/25
代理公司: 北京尚钺知识产权代理事务所(普通合伙) 11723 代理人: 王海荣
地址: 430058 湖北省武汉市蔡甸区经济*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据源 海量 数据处理 方法 系统
【说明书】:

发明涉及一种基于异构数据源的海量数据处理方法及系统。本方法包括服务调用数据写入存储、查询服务调用数据、定时清理数据文件、通过shell脚本进行智能预警等步骤。本方法能够支持服务系统快速扩容,大幅提高接口并发量,支撑接口日亿级别的调用,可用于海量数据的存储及调用;且支持外部用户无感知的系统扩容,扩容期间接口可以正常调用。本方法采用多数据源引擎协作查询,支持跨数据源查询,适用于各种查询场景,提高了数据实时查询能力和多维分析能力,且本方法能够及时快速地智能清理无用的存储数据和文件,不需要运维手动巡查清理,减少了人工和机器成本。

技术领域

本发明属于混合数据源数据处理方法技术领域,尤其涉及一种基于异构数据源的海量数据处理方法及系统。

背景技术

很多应用系统在工作运行过程中,例如数据服务系统在统计用户调用接口的情况时,需获得已发布服务数、接口失败率、接口调用耗时、接口调用量(日、周、月、年)、支撑应用数等信息,都需要基于接口调用数据来进行统计分析。目前,大多现有系统采取的都是基于mongodb+mysql+运维手动清数据的架构方案,mongodb用于存储调用数据,定时任务处理mongodb数据形成统计数据,然后把统计数据存储到mysql单表中,运维定时(每年)手动清理一次mongodb中无用的数据文件。

然而,上述基于mongodb+mysql+运维手动清数据的方案,如果因为突发事件导致调用接口用户剧增,服务日调用量达到千万或者亿级别,单秒单接口并发量达到数千时(比如千万级人口城市提供的个人信息查询等服务接口),会存在如下缺陷:

1、上述方案中接口日调用量只能支持到万级别,根本无法支撑突发情况导致调用量达到日亿级别的情况。

2、mongodb存储数据文件,难以扩容,mongo集群扩容复杂,扩容过程中会停服,机器成本和人工成本巨大,当并发量突然提高时,难以在短时间内以用户无感知的方式进行扩容支撑。

3、接口调用统计数据存放在单表mysql,如果对外开放1w个接口,每天产生的数据有13w条以上,每个月可到400w条,每年可到5000w条。当单表mysql数据量超过5000w时会触及磁盘io瓶颈,会导致查询慢、效率低、接口调用超时、甚至不可用等情况出现。

4、基于mysql和mongodb存储中间件,不支持跨数据源查询,对复杂查询、统计不友好,且查询效率难以满足复杂OLAP需求。

5、手动清数据文件,对于单日数据文件大小在1G以下,一般文件服务器,磁盘大小1T,运维年度手动清理一次数据方案即可。但对于日产生数据量50G以上的,只需十几天数据磁盘就会爆满,需要运维高频率检查磁盘,手动清理文件,消耗人工成本,若清理不及时还会导致服务不可用。

发明内容

术语解释

Presto:Presto是Facebook开源的、完全基于内存并行计算的、分布式SQL查询引擎,适用于交互式分析查询。

Catalog:Catalog即数据源。每个数据源连接都有一个名字,一个Catalog可以包含多个Schema,并通过connector引用数据源,通过show catalogs命令可看到Presto已连接的所有数据源。

Schema:相当于一个数据库,一个Schema包含多张数据表。通过show schemasfrom'catalog_name'命令可列出Catalog下的所有Schema。

Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。

为了克服现有mongodb+mysql+运维手动清数据架构方案存在的缺陷,本发明提出了一种新的基于异构数据源的海量数据处理方法。本发明方法旨在解决以下问题:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电云数智科技有限公司,未经中电云数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310350188.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top