[发明专利]画像标签聚合方法、电子设备及存储介质在审
申请号: | 202111038502.X | 申请日: | 2021-09-06 |
公开(公告)号: | CN113918532A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 房英明;张晓栋;方磊 | 申请(专利权)人: | 北京互金新融科技有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/215;G06F16/242 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 杨东明;金学来 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 画像 标签 聚合 方法 电子设备 存储 介质 | ||
本发明公开了一种画像标签聚合方法、电子设备及存储介质,画像标签聚合方法包括:根据所述画像标签的元数据信息确定所述画像标签对应的标签表;将所述标签表解析成键和值的形式;根据所述键对所述画像标签进行第一排序,对相同键的所述画像标签进行第一聚合;根据所述值对所述画像标签进行第二排序,对相同值的画像标签进行第二聚合。本发明通过元数据信息读取画像标签,并对画像标签进行分布式的处理,避免了在执行画像标签聚合的任务时配置依赖任务而造成大量低效的代码开发工作,优化了资源使用,大大减少了时间,提高了效率,并且本发明能灵活支持更多标签接入,灵活配置程序并行度,而核心逻辑无需更改,有较强的扩展性。
技术领域
本发明涉及数据处理技术领域,特别涉及一种画像标签聚合方法、电子设备及存储介质。
背景技术
用户的画像标签是基于用户属性、消费信息进行分析提炼出来的各类特征,统一用户画像标签可支持营销、推荐、分析等各类场景,当前各类画像标签分布在不同数据表中,画像标签拆分有利于权限的精细化管控,但是由于用户的画像标签数据量大、产出时间各异,导致无法一次性将画像标签聚合起来,从而导致将画像标签聚合起来所花费的时间长,效率低,并且在有新标签数据进入时,又要重新开发代码,不够灵活。
发明内容
本发明要解决的技术问题是为了克服现有技术中将画像标签聚合起来所花费的时间长,效率低,不够灵活的缺陷,提供一种画像标签聚合方法、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
根据本发明的第一方面,提供一种画像标签聚合方法,包括以下步骤:
根据所述画像标签的元数据信息确定所述画像标签对应的标签表;
将所述标签表解析成键和值的形式;
根据所述键对所述画像标签进行第一排序,对相同键的所述画像标签进行第一聚合;
根据所述值对所述画像标签进行第二排序,对相同值的所述画像标签进行第二聚合。
较佳地,所述根据所述画像标签的元数据信息确定所述画像标签对应的标签表的步骤之前,所述画像标签聚合方法还包括:
创建元数据表,所述元数据表用于存储所述元数据信息,所述元数据信息包括所述画像标签所在标签表的路径;
从所述元数据表中获取所述画像标签的元数据信息。
较佳地,所述画像标签聚合方法还包括:
创建所述标签表,所述标签表用于存储所述画像标签,所述画像标签包括用户ID(身份标识号码)和标签值;
在将所述标签表解析成键和值的形式的步骤中,所述键对应于所述用户ID,所述值对应于所述标签值。
较佳地,所述画像标签聚合方法还包括:
对所述画像标签进行预处理。
较佳地,所述预处理包括清洗标签表中的脏数据。
较佳地,所述画像标签聚合方法还包括:
按照日期对所述标签表进行分区,将所述日期的画像标签加载到对应的分区。
较佳地,所述分区为第一分片,所述将所述标签表解析成键和值的形式的步骤之前,所述画像标签聚合方法还包括:
对所述第一分片进行切分或合并,得到第二分片。
较佳地,所述对相同值的画像标签进行第二聚合的步骤之后,所述画像标签聚合方法还包括:
新建第一画像宽表,将第二聚合后的所述画像标签输出到所述第一画像宽表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京互金新融科技有限公司,未经北京互金新融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111038502.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子设备
- 下一篇:基于微生物菌剂的高炉裂缝修补方法