[发明专利]一种百亿级数据量多条件快速结果估算的方法有效
申请号: | 202010268561.5 | 申请日: | 2020-04-07 |
公开(公告)号: | CN111625557B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 董一聪 | 申请(专利权)人: | 上海熙菱信息技术有限公司 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/2458;G06F16/248;G06F16/28 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 201203 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 百亿 级数 据量多 条件 快速 结果 估算 方法 | ||
本发明公开了一种百亿级数据量多条件快速结果估算的方法,涉及数据处理领域,具体包括以下步骤:数据存储;创建预统计信息,结合使用场景,在系统构建时,采用数据预统计技术对每天实时存入数据库的大量数据进行多个维度的事先统计;数据量估算;条件分段。本发明提供了一套完整、高效、快速的数据多条件快速结果估算的方法,该方法实现难度较小,对于硬件要求较低,运行稳定。
技术领域
本发明涉及数据处理领域,尤其涉及一种百亿级数据量多条件快速结果估算的方法。
背景技术
随着国家对安防的重视程度越来越高,各级公安、交通部门逐年加大了卡口点位建设,随之而来的是接受数据越来越大,以及用户部门对数据依赖度越来越高,随之 而来的问题是如何解决好海量数据的存储、查询问题。
目前常用的主要有以下2种方案:
方案一、关系型数据库(oracle、sqlserver为主)存储全量数据、查询全量数据。
方案二、关系型数据库(oracle、sqlserver为主)存储近期数据、查询,大数据平台(hadoop为主)存储全量数据,方便离线计算并返回结果到关系型数据库中供查询。
上述方案一、方案二存在以下问题:用户建设成本高,大量数据存储占用资源高,维护成本高,主要体现在硬盘资源占用高、数据库软件运维难度高、数据维护成本高; 用户使用感受差,在数据入库、查询时性能差,无法满足公安、交通用户部门实战应 用的要求;运维成本高,oracle、sqlserver数据库安装、维护过程复杂度较高,对现场 运维人员有一定要求,无法做到低运维成本;针对行业背景进行数据调优难度较高。
因此,本领域的技术人员致力于开发一种完整、高效、快速的数据多条件快速结果估算的方法。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是解决存储成本,提高数据入库性能,提高数据查询性能,并降低现场运维成本。
为实现上述目的,本发明提供了一种百亿级数据量多条件快速结果估算的方法,其特征在于,包括以下步骤:
步骤A、数据存储;
步骤B、创建预统计信息,结合使用场景,在系统构建时,采用数据预统 计技术对每天实时存入数据库的大量数据进行多个维度的事先统计;
步骤C、数据量估算;
步骤D、条件分段。
进一步地,所述步骤A的引擎采用TokuDB。
进一步地,所述步骤A采用基于Mycat数据中间件的Mysql数据库。
进一步地,所述步骤A的行压缩模式采用zstd模式。
进一步地,所述步骤B具体包括选取业务查询的条件作为维度,程序自动建立这些维度,在所述数据库中进行统计并将统计结果写入到对应结果表中,以便在业务场 景查询时根据所述统计结果实施所述步骤C和所述步骤D。
进一步地,所述步骤C具体包括系统每次进行业务查询时,根据用户的查询条件到所述步骤B的所述预统计信息中进行查询并将所述查询结果进行组合。
进一步地,所述步骤D具体包括在数据查询时,系统根据查询条件中的时间条件,结合所述预统计信息以及系统页面展示需要,将时间进行截断查询。
进一步地,所述步骤B的条件查询包括过车量查询。
进一步地,所述步骤D的所述系统页面展示需要包括分页展示时每页显示的信息数量有限。
进一步地,所述TokuDB的索引在线创建。
本发明所述百亿级数据量多条件快速结果估算的方法的技术效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海熙菱信息技术有限公司,未经上海熙菱信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010268561.5/2.html,转载请声明来源钻瓜专利网。