[发明专利]一种百亿级数据量多条件快速结果估算的方法有效

申请号：	202010268561.5	申请日：	2020-04-07
公开（公告）号：	CN111625557B	公开（公告）日：	2023-04-14
发明（设计）人：	董一聪	申请（专利权）人：	上海熙菱信息技术有限公司
主分类号：	G06F16/2453	分类号：	G06F16/2453;G06F16/2458;G06F16/248;G06F16/28
代理公司：	上海旭诚知识产权代理有限公司 31220	代理人：	郑立
地址：	201203 上海市浦东新区中国(上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种百亿级数据量多条件快速结果估算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种百亿级数据量多条件快速结果估算的方法，涉及数据处理领域，具体包括以下步骤：数据存储；创建预统计信息，结合使用场景，在系统构建时，采用数据预统计技术对每天实时存入数据库的大量数据进行多个维度的事先统计；数据量估算；条件分段。本发明提供了一套完整、高效、快速的数据多条件快速结果估算的方法，该方法实现难度较小，对于硬件要求较低，运行稳定。

技术领域

本发明涉及数据处理领域，尤其涉及一种百亿级数据量多条件快速结果估算的方法。

背景技术

随着国家对安防的重视程度越来越高，各级公安、交通部门逐年加大了卡口点位建设，随之而来的是接受数据越来越大，以及用户部门对数据依赖度越来越高，随之而来的问题是如何解决好海量数据的存储、查询问题。

目前常用的主要有以下2种方案：

方案一、关系型数据库(oracle、sqlserver为主)存储全量数据、查询全量数据。

方案二、关系型数据库(oracle、sqlserver为主)存储近期数据、查询，大数据平台(hadoop为主)存储全量数据，方便离线计算并返回结果到关系型数据库中供查询。

上述方案一、方案二存在以下问题：用户建设成本高，大量数据存储占用资源高，维护成本高，主要体现在硬盘资源占用高、数据库软件运维难度高、数据维护成本高；用户使用感受差，在数据入库、查询时性能差，无法满足公安、交通用户部门实战应用的要求；运维成本高，oracle、sqlserver数据库安装、维护过程复杂度较高，对现场运维人员有一定要求，无法做到低运维成本；针对行业背景进行数据调优难度较高。

因此，本领域的技术人员致力于开发一种完整、高效、快速的数据多条件快速结果估算的方法。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是解决存储成本，提高数据入库性能，提高数据查询性能，并降低现场运维成本。

为实现上述目的，本发明提供了一种百亿级数据量多条件快速结果估算的方法，其特征在于，包括以下步骤：

步骤A、数据存储；

步骤B、创建预统计信息，结合使用场景，在系统构建时，采用数据预统计技术对每天实时存入数据库的大量数据进行多个维度的事先统计；

步骤C、数据量估算；

步骤D、条件分段。

进一步地，所述步骤A的引擎采用TokuDB。

进一步地，所述步骤A采用基于Mycat数据中间件的Mysql数据库。

进一步地，所述步骤A的行压缩模式采用zstd模式。

进一步地，所述步骤B具体包括选取业务查询的条件作为维度，程序自动建立这些维度，在所述数据库中进行统计并将统计结果写入到对应结果表中，以便在业务场景查询时根据所述统计结果实施所述步骤C和所述步骤D。