[发明专利]一种基于RoaringBitmap海量用户高效圈选方法及装置在审
申请号: | 202011482828.7 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112540972A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 毛春阳;闫一帅 | 申请(专利权)人: | 中盈优创资讯科技有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/22;G06F16/2453;G06F16/2458;G06F16/27 |
代理公司: | 上海嘉蓝专利代理事务所(普通合伙) 31407 | 代理人: | 金波 |
地址: | 200000 上海市嘉定区安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 roaringbitmap 海量 用户 高效 方法 装置 | ||
本发明公开一种基于RoaringBitmap海量用户高效圈选方法及装置,其中,该方法包括:将根据用户行为数据创建用户行为的标签库和业务分类的标签库,然后根据标签库创建数据模型,再根据数据模型创建bitmap分区表存放用户历史数据,最终通过自定义函数计算出结果;从数仓数据同步到数据模型中,然后根据规则从数据模型对bitmap分区表进行补数,最后按需对bitmap分区表进行cube加速生成cube_bitmap表;根据用户所选维度选择直接查结果表或者是经过存储过程查询区分走加速cube查询还是从bitmap分区表中查询。该方法及装置实现了在海量用户中能够准确且高效的圈选出所要统计的信息。
技术领域
本发明涉及移动通讯物联网领域,尤其是一种基于RoaringBitmap(高效位图计算)海量用户高效圈选方法及装置。
背景技术
随着移动通讯设备广泛使用,用户移动端上网数据的逐日累增,在基于不同纬度对用户的圈选通常都是采用OLAP-Druid的预汇总方式和SPARK分布式高效的内存计算方式来解决。但是,OLAP-Druid在去重的业务场景中精度上会丢失,统计的结果不准确,而SPAKR计算方式则是拉明细数据到内存中运算,虽然是分布式的,但是明细数据占用的内存资源相当大,并且在海量的数据做count(distinct)这种操作效率也低。对于海量用户的高效圈选这种业务场景,常规的技术方案用户体验较差。
发明内容
为解决对于海量用户的高效圈选这种业务场景,常规的技术方案用户体验较差的问题,本发明提供一种基于RoaringBitmap海量用户高效圈选方法及装置,基于海量用户的高效圈选业务场景,采用了RoaringBitmap插件在PostGreSql上研发了可以对海量用户高效圈选的方案,实现了用户在海量用户中能够准确且高效的圈选出所要统计的信息。
为实现上述目的,本发明采用下述技术方案:
在本发明一实施例中,提出了一种基于RoaringBitmap海量用户高效圈选方法,该方法包括:
数据模型创建:根据用户行为数据创建用户行为的标签库和业务分类的标签库,根据用户行为的标签库和业务分类的标签库创建数据模型,根据数据模型创建bitmap分区表,根据bitmap分区表创建查询统计的函数func(),再判断是否直接计算结果,是则创建结果表,同时根据bitmap分区表判断是否创建cube_bitmap表,是则创建cube_bitmap表,根据cube_bitmap表创建查询统计的函数func();
数据补数:从数仓数据同步到数据模型中,根据对应的函数func()进行补数,将IMSI同步到字典表中用于bitmap计算,根据分区删除要补数的日期数据,bitmap分区表数据根据数据模型数据进行补数,判断是否进行cube加速,是则生成模型cube_bitmap表;
自定义多维用户圈选:查询时判断是否路由到结果表直接查询,否则存储过程,判断是否路由cube,是则根据模型cube_bitmap表对应的函数func()查询,否则根据bitmap分区表对应的函数func()查询,根据bitmap分区表做计算返回临时结果表进行用户圈选统计。
进一步地,数据模型由指定的维度包括地市、性别、爱好、年龄、终端和职业以及指标包括活跃用户、沉睡用户、新用户和用户上网时长组成,该数据模型的数据从数仓中同步。
进一步地,bitmap分区表由要统计的维度+flag+statis_date+roaringbitmap字段构成;根据统计的维度汇总、去重、聚合和查询统计的函数func(),计算出每天以及历史的用户bitmap,最后根据日期设置为bitmap分区表。
进一步地,查询统计的函数func()支持多个时间段以及同环比查询。
进一步地,cube_bitmap表用于cube查询加速。
进一步地,结果表用于存储通过bitmap预计算的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中盈优创资讯科技有限公司,未经中盈优创资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011482828.7/2.html,转载请声明来源钻瓜专利网。