[发明专利]一种数据处理方法及装置在审
申请号: | 202011137850.8 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112269726A | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 曾炎明;卞欣彤;张李伟;李深远 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 陈彦如 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本申请公开了一种数据处理方法及装置,包括:获取目标用户的与预设行为对应的用户行为数据;确定与所述目标用户的所述预设行为唯一对应的目标位图,其中,不同所述目标用户的所述预设行为对应不同的位图;利用所述目标位图存储所述用户行为数据;利用所述目标位图进行针对所述用户行为数据的分析处理,能够优化hive框架下的数据存储,进而提升数据运算的效率和灵活度,以及查询的便利性。
技术领域
本申请涉及数据处理技术领域,特别涉及一种数据处理方法及装置。
背景技术
在增长黑客中,常用增长“海盗指标(Pirate Metrics)”进行增长评估,以及构建用户行为分层标签支持增长投放。以上指标/标签的计算上有两个特点:1、都涉及到用户一段时间的用户行为状态变化;2、随着实际业务发展和技术变迁,具体指标的使用和口径定义很可能会做出适应性调整。
当前,基于hive计算框架,通常采用两种模式实现增长指标的计算:1、基于每天的行为中间表进行计算,可以灵活地满足业务发展和技术变迁导致的计算变更,但是这种计算模式在某些指标的计算上非常消耗资源、计算时间难以确保。2、构建保留与计算指标相关的用户状态表,可以以较少的计算资源实现相关指标的计算,但是难以灵活适应计算指标的调整。而目前虽然在其他计算框架下,存在一些基于位图的存储和计算方法,以在一定程度上提升运算的效率和灵活性,但基础思想均是按照timebase(时间基准)去实现位图的存储和计算,即一个时刻一行记录全部用户的某个行为,一方面,在存储上,基于timebase的存储模式,20亿用户记录需要20亿bit,在hive上只能通过字符串存储,但实际上20亿位的字符串无法实现hive上的存储;另一方面,在计算和查询上,实际应用中更多是对单用户行为进行查询,timebase不能满足直观的单用户行为查询。综上,在实现本发明的过程中,发明人发现现有技术中至少存在hive框架下计算效能和灵活度低,现有位图存储方式难以在hive框架上实现以及不便查询的问题。
发明内容
有鉴于此,本申请的目的在于提供一种数据处理方法及装置,能够优化hive框架下的数据存储,进而提升数据运算的效率和灵活度,以及查询的便利性。其具体方案如下:
第一方面,本申请公开了一种数据处理方法,应用于hive框架,包括:
获取目标用户的与预设行为对应的用户行为数据;
确定与所述目标用户的所述预设行为唯一对应的目标位图,其中,不同所述目标用户的所述预设行为对应不同的位图;
利用所述目标位图存储所述用户行为数据;
利用所述目标位图进行针对所述用户行为数据的分析处理。
可选的,所述利用所述目标位图存储所述用户行为数据,包括:
基于预设的映射关系,确定与所述用户行为数据对应的行为标识以得到相应的目标行为标识;
将所述目标行为标识存储至所述目标位图。
可选的,所述将所述目标行为标识存储至所述目标位图,包括:
将所述目标行为标识直接添加至所述目标位图的预设位置。
可选的,所述利用所述目标位图进行针对所述用户行为数据的分析处理,包括:
针对任一所述目标用户对应的所述目标位图,确定最后一个存储至所述目标位图的行为标识对应的行为时间数据与第一目标时间段的第一时间间隔以及与第二目标时间段的第二时间间隔;
分别利用所述第一时间间隔和所述第二时间间隔以及所述目标位图判断所述目标用户在所述第一目标时间段以及所述第二目标时间段是否存在所述预设行为;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011137850.8/2.html,转载请声明来源钻瓜专利网。