[发明专利]标签数据处理方法、装置、设备和存储介质在审
申请号: | 202011037355.X | 申请日: | 2020-09-27 |
公开(公告)号: | CN112015775A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 全威龙;王冬;赵煜杨 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/215;G06F16/22 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 数据处理 方法 装置 设备 存储 介质 | ||
1.一种标签数据处理方法,包括:
根据当前用户标识信息,确定当前用户分段号;
根据所述当前用户分段号,确定当前用户分桶号;
将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储。
2.根据权利要求1所述的方法,其中,所述根据当前用户标识信息,确定当前用户分段号,包括:
根据数据库的预估用户总数和数据库中桶总数,确定单桶用户数量;
根据所述当前用户标识信息和所述单桶用户数量,确定当前用户分段号。
3.根据权利要求1所述的方法,其中,所述根据所述当前用户分段号,确定当前用户分桶号,包括:
根据所述当前用户分段号和数据库中桶总数,确定当前用户分桶号。
4.根据权利要求1-3中任一项所述的方法,所述根据当前用户标识信息,确定当前用户分段号之前,还包括:
确定当前用户标识数值,作为所述当前用户标识信息;其中,所述当前用户标识数值为唯一整数,且与其他用户的用户标识数值连续。
5.根据权利要求4所述方法,其中,所述确定当前用户标识数值,包括:
基于数据库的元数据,确定所述数据库中最新用户标识数值;
根据所述最新用户标识数值,确定所述当前用户标识数值;其中,所述当前用户标识数值与所述最新用户标识数值连续。
6.根据权利要求1所述的方法,所述将所述数据桶内的用户标签数据聚合成位图数据进行存储之后,还包括:
根据标签维度的访问频次,生成至少一个标签维度组;其中,所述标签维度组中包括至少一个标签维度;
根据所述至少一个标签维度的位图数据,生成所述标签维度组的物化视图。
7.根据权利要求6所述的方法,还包括:
响应于携带有筛选条件的标签查询请求,将满足所述筛选条件的数据表作为候选数据表;其中,所述数据表包括位图数据表和物化视图表;
确定所述候选数据表的属性信息;其中,所述属性信息包括如下至少一项:机房信息、维度数量和标签记录数量;
根据所述候选数据表的属性信息,从所述候选数据表中选择目标数据表;
基于所述目标数据表,确定标签查询结果。
8.根据权利要求1所述的方法,还包括:
响应于标签查询请求,根据数据库中至少两个数据桶的位图数据,确定至少两个数据桶的查询结果;
对所述至少两个数据桶的查询结果进行汇总,得到标签查询结果。
9.一种标签数据处理装置,包括:
分段模块,用于根据当前用户标识信息,确定当前用户分段号;
分桶模块,用于根据所述当前用户分段号,确定当前用户分桶号;
数据存储模块,用于将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储。
10.根据权利要求9所述的装置,其中,所述分段模块包括:
桶用户数单元,用于根据数据库的预估用户总数和数据库中桶总数,确定单桶用户数量;
分段单元,用于根据所述当前用户标识信息和所述单桶用户数量,确定当前用户分段号。
11.根据权利要求9所述的装置,其中,所述分桶模块具体用于:
根据所述当前用户分段号和数据库中桶总数,确定当前用户分桶号。
12.根据权利要求9-11中任一项所述的装置,还包括:
标识值模块,用于确定当前用户标识数值,作为所述当前用户标识信息;其中,所述当前用户标识数值为唯一整数,且与其他用户的用户标识数值连续。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011037355.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:针剂柜智能存取系统
- 下一篇:一种房屋装饰用颜料喷洒装置