[发明专利]一种多对象标签数据的抽取方法及系统有效
申请号: | 202210067620.1 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114090590B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 黄景景;徐文朝;朱辉;张涛;薛延波;赵鹏 | 申请(专利权)人: | 北京华品博睿网络技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/25;G06F16/28 |
代理公司: | 北京君泊知识产权代理有限公司 11496 | 代理人: | 周倩 |
地址: | 100028 北京市朝阳区太*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对象 标签 数据 抽取 方法 系统 | ||
本发明实施例公开了一种多对象标签数据的抽取方法,包括:基于抽取规则对多个对象的标签数据进行元数据抽取,每个抽取规则抽取出的数据产生一张临时表;对多个所述临时表进行格式转换,并将格式转换后的多个所述临时表的结果合并至一个大宽表中;基于预先构建的标签树结构将所述大宽表中的各个标签的值路由至不同的分表中,所述分表存储于时间戳分区中,所述时间戳分区为以标签的值更新时间为值的分区。本发明实施例还公开了一种多对象标签数据的抽取系统。本发明能够实现多个对象的大量标签数据的高效存储问题,并能实现标签数据的低延迟动态更新。
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种多对象标签数据的抽取方法及系统。
背景技术
对象的标签数据是用户画像系统的重要数据,来源于不同的数据源。在实际应用中需要将多个对象的标签数据集成在一起以用于查询、分析等处理,这就需要对大量的标签数据进行存储。现有技术中,在进行多个对象的标签数据存储时,会直接将所有的标签直接存储成一个大宽表,在ETL的时候会耗费大量的时间,针对底层数据的存储,常用的技术方案是采用Apache Hive进行存储,但是在更新标签值的时候需要更新Hive表中所有的数据,因为Hive不支持按行进行数据更新,只能通过全量数据覆盖的方式,所以在数据量较大的情况下,比较耗费资源。
发明内容
为解决上述问题,本发明的目的在于提供一种多对象标签数据的抽取方法及系统,能够实现多个对象的大量标签数据的高效存储问题,并能实现标签数据的低延迟动态更新。
本发明实施例提供了一种多对象标签数据的抽取方法,所述方法包括:
基于抽取规则对多个对象的标签数据进行元数据抽取,每个抽取规则抽取出的数据产生一张临时表,所述临时表包括各个uid和每个uid对应的所有标签的值,其中,每个对象的所有标签的值对应一个uid,所述每个uid对应的所有标签的值是基于当前抽取规则从所述多个对象的标签数据中计算得到的数据;
对多个所述临时表进行格式转换,并将格式转换后的多个所述临时表的结果合并至一个大宽表中;
基于预先构建的标签树结构将所述大宽表中的各个标签的值路由至不同的分表中,其中,所述分表包括当前分类所属对象的uid和当前分类对应的所有标签的值,所述分表存储于时间戳分区中,所述时间戳分区为以标签的值更新时间为值的分区,用于标识不同版本的标签的值。
作为本发明进一步的改进,所述临时表为横向的临时宽表,所述临时宽表中第一列表示各个uid,从第二列起表示各个uid对应的标签的值,或,
所述临时表为纵向的临时窄表,所述临时窄表中第一列表示各个uid,第二列表示各个uid对应的标签的键,第三列表示各个uid对应的标签的值。
作为本发明进一步的改进,所述标签树结构中,一级节点表示业务,二级节点表示业务下的对象,每个二级节点下有多个分类节点,每个分类节点下有多个叶子节点,每个叶子节点表示一个标签的值,
所述基于预先构建的标签树结构将所述大宽表中的各个标签的值路由至不同的分表中,包括:
将每个分类节点划分为一张分表,所述分表中第一列表示分类的uid,从第二列开始表示该分类的所有叶子节点对应的标签的值。
作为本发明进一步的改进,所述方法还包括:
比对每个分表中的列和关系数据库中对应的标签数据,在比对出有差异数据时,根据所述差异数据构建新分表或对已有分表进行数据更新,新分表和更新后的分表导入至所述时间戳分区。
作为本发明进一步的改进,所述方法还包括:
根据对象的uid,从所述时间戳分区中获取最新的分表,以基于所述最新的分表获取对象最新的所有标签的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华品博睿网络技术有限公司,未经北京华品博睿网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210067620.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置