[发明专利]一种多对象标签数据的抽取方法及系统有效

专利信息
申请号: 202210067620.1 申请日: 2022-01-20
公开(公告)号: CN114090590B 公开(公告)日: 2022-04-05
发明(设计)人: 黄景景;徐文朝;朱辉;张涛;薛延波;赵鹏 申请(专利权)人: 北京华品博睿网络技术有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/23;G06F16/25;G06F16/28
代理公司: 北京君泊知识产权代理有限公司 11496 代理人: 周倩
地址: 100028 北京市朝阳区太*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 对象 标签 数据 抽取 方法 系统
【权利要求书】:

1.一种多对象标签数据的抽取方法,其特征在于,所述方法包括:

基于抽取规则对用户画像系统中的多个对象的标签数据进行元数据抽取,每个抽取规则抽取出的数据产生一张临时表,所述临时表包括各个uid和每个uid对应的所有标签的值,其中,每个对象的所有标签的值对应一个uid,所述每个uid对应的所有标签的值是基于当前抽取规则从所述多个对象的标签数据中计算得到的数据,每个临时表中,uid作为对象的唯一标识,每个对象对应一个uid,一个对象的标签划分为不同的分类,每个分类对应一张分表,uid用于关联各个分表的数据以及根据当前抽取规则计算出来的对象的标签的值;

对多个所述临时表进行格式转换,并将格式转换后的多个所述临时表的结果合并至一个大宽表中;

基于预先构建的标签树结构中的分类将所述大宽表中的各个标签的值路由至不同的分表中,其中,所述分表包括当前分类所属对象的uid和当前分类对应的所有标签的值,所述分表存储于时间戳分区中,所述时间戳分区为以标签的值更新时间为值的分区,用于标识不同版本的标签的值;

根据对象的uid,从所述时间戳分区中获取最新的分表,以基于所述最新的分表获取对象最新的所有标签的值。

2.如权利要求1所述的方法,其中,所述临时表为横向的临时宽表,所述临时宽表中第一列表示各个uid,从第二列起表示各个uid对应的标签的值,或,

所述临时表为纵向的临时窄表,所述临时窄表中第一列表示各个uid,第二列表示各个uid对应的标签的键,第三列表示各个uid对应的标签的值。

3.如权利要求1所述的方法,其中,所述标签树结构中,一级节点表示业务,二级节点表示业务下的对象,每个二级节点下有多个分类节点,每个分类节点下有多个叶子节点,每个叶子节点表示一个标签的值,

所述基于预先构建的标签树结构将所述大宽表中的各个标签的值路由至不同的分表中,包括:

将每个分类节点划分为一张分表,所述分表中第一列表示分类的uid,从第二列开始表示该分类的所有叶子节点对应的标签的值。

4.如权利要求1所述的方法,其中,所述方法还包括:

比对每个分表中的列和关系数据库中对应的标签数据,在比对出有差异数据时,根据所述差异数据构建新分表或对已有分表进行数据更新,新分表和更新后的分表导入至所述时间戳分区。

5.一种多对象标签数据的抽取系统,其特征在于,所述系统包括:

元数据抽取模块,用于基于抽取规则对用户画像系统中的多个对象的标签数据进行元数据抽取,每个抽取规则抽取出的数据产生一张临时表,所述临时表包括各个uid和每个uid对应的所有标签的值,其中,每个对象的所有标签的值对应一个uid,所述每个uid对应的所有标签的值是基于当前抽取规则从所述多个对象的标签数据中计算得到的数据,每个临时表中,uid作为对象的唯一标识,每个对象对应一个uid,一个对象的标签划分为不同的分类,每个分类对应一张分表,uid用于关联各个分表的数据以及根据当前抽取规则计算出来的对象的标签的值;

数据合并模块,用于对多个所述临时表进行格式转换,并将格式转换后的多个所述临时表的结果合并至一个大宽表中;

分表存储模块,用于基于预先构建的标签树结构中的分类将所述大宽表中的各个标签的值路由至不同的分表中,其中,所述分表包括当前分类所属对象的uid和当前分类对应的所有标签的值,所述分表存储于时间戳分区中,所述时间戳分区为以标签的值更新时间为值的分区,用于标识不同版本的标签的值;

分析查询模块,用于根据对象的uid,从所述时间戳分区中获取最新的分表,以基于所述最新的分表获取对象最新的所有标签的值。

6.如权利要求5所述的系统,其中,所述临时表为横向的临时宽表,所述临时宽表中第一列表示各个uid,从第二列起表示各个uid对应的标签的值,或,

所述临时表为纵向的临时窄表,所述临时窄表中第一列表示各个uid,第二列表示各个uid对应的标签的键,第三列表示各个uid对应的标签的值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华品博睿网络技术有限公司,未经北京华品博睿网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210067620.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top