[发明专利]全量分区视图的生成方法、装置、存储介质和电子装置在审

申请号：	202010029539.5	申请日：	2020-01-10
公开（公告）号：	CN111274253A	公开（公告）日：	2020-06-12
发明（设计）人：	李仓良;杨学毅;祝梦遥	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F16/23	分类号：	G06F16/23
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	张丽颖;李雪
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分区视图生成方法装置存储介质电子
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种全量分区视图的生成方法、装置、存储介质和电子装置，其中，该方法包括：在基准时间点获取数据存储中的全量数据，得到基准数据；按时间分区从数据存储中获取从基准时间点到每个时间分区的结束时间点的增量数据，得到每个时间分区对应的增量数据；根据基准数据和每个时间分区对应的增量数据生成每个时间分区对应的全量分区视图。本申请解决了生成全量分区视图的灵活性较差的技术问题。

技术领域

本申请涉及计算机领域，尤其涉及一种全量分区视图的生成方法、装置、存储介质和电子装置。

背景技术

目前Hadoop生态进行大数据处理，一般选择Hive作为大数据仓库的构建工具，但是随着数据规模越来越庞大，Hive的处理速度越来越慢，一般只能构建小时级或者天级的离线数据仓库，如果构建分钟级别的近实时数据仓库那么对数据量的要求就会非常苛刻，比如在线视频领域对剧的分钟级别的vv统计，只有一个long型的字段，数据规模较小，使用Hive来构建是能满足需求的。但是一旦数据规模比较大了之后使用Hive来构建这种分钟级甚至近实时级别的数据仓库就存在严重的性能问题了，生成对应的分区视图延迟就比较严重，可能生成分区视图的时间要远远超过一个分区的时间，难以满足业务需求。现有的数据仓库的构建方式只有在数据量较小时才能够生成精度较高的分区视图，对于数据量较大的情况无法满足高精度的要求，导致生成数据仓库的全量分区视图的灵活性较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种全量分区视图的生成方法、装置、存储介质和电子装置。

根据本申请实施例的一个方面，提供了一种全量分区视图的生成方法，包括：

在基准时间点获取数据存储中的全量数据，得到基准数据；

按时间分区从所述数据存储中获取从所述基准时间点到每个时间分区的结束时间点的增量数据，得到所述每个时间分区对应的增量数据；

根据所述基准数据和所述每个时间分区对应的增量数据生成所述每个时间分区对应的全量分区视图。

可选地，在所述基准时间点获取所述数据存储中的全量数据，得到所述基准数据之前，所述方法还包括：

监听所述数据源数据的更新，并将更新数据同步到所述数据存储中，其中，所述数据存储用于存储所述数据源数据；

记录所述更新数据的更新时间。

可选地，按时间分区从所述数据存储中获取从所述基准时间点到每个时间分区的结束时间点的增量数据，得到所述每个时间分区对应的增量数据包括：

获取从所述基准时间点到多个所述时间分区中每个时间分区的结束时间点的更新时间，其中，所述更新时间用于指示从所述基准时间点到所述每个时间分区的结束时间点所述数据存储中的数据更新的时间；