[发明专利]数据处理方法、装置、可读介质及电子设备有效
申请号: | 202110336511.0 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113157695B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 王石冲;王航宇;罗梦瑶;汪鹏;丁春雷;宋骞;于佳萍 | 申请(专利权)人: | 抖音视界有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;G06F16/242 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曹寒梅 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 可读 介质 电子设备 | ||
本公开涉及一种数据处理方法、装置、可读介质及电子设备,包括:获取导入数据,导入数据中包括用户ID以及用户ID对应的标签数据;为用户ID分配目标数据节点;通过标签数据中的各个标签,在目标数据节点中分别对应的第一位图,对导入数据进行存储,第一位图中包括映射表,64位长整型数据中的前32位数据作为映射表的关键字,后32位数据作为关键字的值,关键字的值保存在支持32位整型数据的第二位图中。这样,能够建立起用于对用户进行洞察分析或者进行人群圈选的数据处理系统,相比于只支持32位整型的位图bitmap,支持64位长整型数据的第一位图扩大了该系统能够支持的用户规模,能够实现十亿甚至百亿级别用户的数据处理,提高了系统的处理能力。
技术领域
本公开涉及数据处理领域,具体地,涉及一种数据处理方法、装置、可 读介质及电子设备。
背景技术
人群洞察是一个非常重要的功能。它可以帮助用户对指定人群进行更加 深入、细致的了解。而人群洞察分析通常需要对大量的带标签的用户数据进 行查询,现有的实现方式有很多,例如Spark离线读取、基于ElasticSearch的方式、以及基于Bitmap的方式等等。Spark离线读取的方式具有一定的速 度问题,即使在数据量不大的情况下也无法做到快速的查询响应,基于 ElasticSearch的方式无法支持具有大量标签的用户数据的需求,基于Bitmap 的方式相比前二者响应速度更快,对于大量标签的用户数据的查询效果也较 好,但其仅支持32位整型的ID类型,在使用整型ID表征用户的情况下,所支持的带标签用户数量有一定限制,无法对大规模用户数量级别的用户数 据进行处理。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的 具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技 术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案 的范围。
第一方面,本公开提供一种数据处理方法,所述方法包括:
获取导入数据,所述导入数据中包括用户ID以及所述用户ID对应的标 签数据;
为所述用户ID分配目标数据节点;
通过所述标签数据中的各个标签,在所述目标数据节点中分别对应的第 一位图,对所述导入数据进行存储,所述第一位图中能够存储64位长整型 数据;
其中,所述第一位图中包括映射表,所述64位长整型数据中的前32位 数据作为所述映射表的关键字,后32位数据作为所述关键字的值,所述关 键字的值保存在支持32位整型数据的第二位图中。
第二方面,本公开提供一种数据处理装置,所述装置包括:
获取模块,用于获取导入数据,所述导入数据中包括用户ID以及所述 用户ID对应的标签数据;
分片模块,用于为所述用户ID分配目标数据节点;
处理模块,用于通过所述标签数据中的各个标签,在所述目标数据节点 中分别对应的第一位图,对所述导入数据进行存储,所述第一位图中能够存 储64位长整型数据;
其中,所述第一位图中包括映射表,所述64位长整型数据中的前32位 数据作为所述映射表的关键字,后32位数据作为所述关键字的值,所述关 键字的值保存在支持32位整型数据的第二位图中。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序, 该程序被处理装置执行时实现第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方 面所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于抖音视界有限公司,未经抖音视界有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110336511.0/2.html,转载请声明来源钻瓜专利网。