[发明专利]全量分区视图的生成方法、装置、存储介质和电子装置在审
申请号: | 202010029539.5 | 申请日: | 2020-01-10 |
公开(公告)号: | CN111274253A | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 李仓良;杨学毅;祝梦遥 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 张丽颖;李雪 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分区 视图 生成 方法 装置 存储 介质 电子 | ||
本申请涉及一种全量分区视图的生成方法、装置、存储介质和电子装置,其中,该方法包括:在基准时间点获取数据存储中的全量数据,得到基准数据;按时间分区从数据存储中获取从基准时间点到每个时间分区的结束时间点的增量数据,得到每个时间分区对应的增量数据;根据基准数据和每个时间分区对应的增量数据生成每个时间分区对应的全量分区视图。本申请解决了生成全量分区视图的灵活性较差的技术问题。
技术领域
本申请涉及计算机领域,尤其涉及一种全量分区视图的生成方法、装置、存储介质和电子装置。
背景技术
目前Hadoop生态进行大数据处理,一般选择Hive作为大数据仓库的构建工具,但是随着数据规模越来越庞大,Hive的处理速度越来越慢,一般只能构建小时级或者天级的离线数据仓库,如果构建分钟级别的近实时数据仓库那么对数据量的要求就会非常苛刻,比如在线视频领域对剧的分钟级别的vv统计,只有一个long型的字段,数据规模较小,使用Hive来构建是能满足需求的。但是一旦数据规模比较大了之后使用Hive来构建这种分钟级甚至近实时级别的数据仓库就存在严重的性能问题了,生成对应的分区视图延迟就比较严重,可能生成分区视图的时间要远远超过一个分区的时间,难以满足业务需求。现有的数据仓库的构建方式只有在数据量较小时才能够生成精度较高的分区视图,对于数据量较大的情况无法满足高精度的要求,导致生成数据仓库的全量分区视图的灵活性较差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种全量分区视图的生成方法、装置、存储介质和电子装置。
根据本申请实施例的一个方面,提供了一种全量分区视图的生成方法,包括:
在基准时间点获取数据存储中的全量数据,得到基准数据;
按时间分区从所述数据存储中获取从所述基准时间点到每个时间分区的结束时间点的增量数据,得到所述每个时间分区对应的增量数据;
根据所述基准数据和所述每个时间分区对应的增量数据生成所述每个时间分区对应的全量分区视图。
可选地,在所述基准时间点获取所述数据存储中的全量数据,得到所述基准数据之前,所述方法还包括:
监听所述数据源数据的更新,并将更新数据同步到所述数据存储中,其中,所述数据存储用于存储所述数据源数据;
记录所述更新数据的更新时间。
可选地,按时间分区从所述数据存储中获取从所述基准时间点到每个时间分区的结束时间点的增量数据,得到所述每个时间分区对应的增量数据包括:
获取从所述基准时间点到多个所述时间分区中每个时间分区的结束时间点的更新时间,其中,所述更新时间用于指示从所述基准时间点到所述每个时间分区的结束时间点所述数据存储中的数据更新的时间;
从所述数据存储中获取所述更新时间对应的更新数据作为所述每个时间分区对应的增量数据。
可选地,根据所述基准数据和所述每个时间分区对应的增量数据生成所述每个时间分区对应的全量分区视图包括:
获取所述基准数据与所述每个时间分区对应的增量数据的并集,得到所述每个时间分区对应的全量数据;
生成所述每个时间分区对应的全量数据的全量分区视图。
根据本申请实施例的另一方面,还提供了一种全量分区视图的生成装置,包括:
第一获取模块,用于在基准时间点获取数据存储中的全量数据,得到基准数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010029539.5/2.html,转载请声明来源钻瓜专利网。