[发明专利]ID数据处理方法和装置有效
申请号: | 201810814300.1 | 申请日: | 2018-07-23 |
公开(公告)号: | CN110825919B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 贺勇;李楠;龚坚 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/907 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | id 数据处理 方法 装置 | ||
本发明实施例提供一种ID数据处理方法和装置,即从各个业务系统获取大量的ID数据,根据获取的各ID数据构造ID节点关联图,每个节点对应一个ID数据;求取所述ID关联图中所有的联通分支;根据预设的编码规则对每个联通分支进行编码得到其对应的唯一特征标识,即每个联通分支所有节点的ID数据都归属与一个唯一特征标识。由于每个人的各种ID数据直接挂在一个唯一特征标识下面,不仅可以大大加快检索速度,同时检索一次便可以得到该人的所有ID数据。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种ID数据处理方法和装置。
背景技术
在数据管理业务中,主要是对各种数据进行管理,例如,在以“人”为中心的大数据中,需要建立以“人”为中心的“一人一档”,会将各种业务系统的数据进行汇聚起来,而每个人会有多种ID数据,并且ID数据是上亿级别,不同场合会使用不同的ID,同时不同的人可能拥有不同类型的ID。同时还有一些其它的ID,如手机号码、通讯设备ID、各种网络账号(支付宝账号、微信号、QQ号、邮箱号、微博账号等)。
因此在建立数据管理业务的“一人一档”时,对多个业务系统的数据进行融合时,需要将各个系统人的ID统一起来,并且进行同人的各种ID进行串起来。同时,ID数据与ID关联数据是上亿级别的,如何对这大规模的数据量进行计算是非常有必要的。
发明内容
本发明提供一种ID数据处理方法和装置, 可以大大加快ID数据检索速度。
本发明实施例提供一种ID数据处理方法,包括:
根据获取的各ID数据构造ID节点关联图,每个节点对应一个ID数据;
求取所述ID节点关联图中的联通分支;
根据预设的编码规则对每个联通分支进行编码得到所述联通分支对应的唯一特征标识。
可选地,根据获取的各ID数据构造ID节点关联图包括:
从各个业务系统中获取多个的ID数据,所述ID数据至少包括ID类型和ID号码;
根据各ID数据之间的关联关系,使用各ID之间的关联作为无向边构造ID节点关联图,所述ID节点关联图中每个节点使用自己的ID数据作为其归属ID。
可选地,求取所述ID节点关联图中所有的联通分支包括:
步骤A、每个节点接收到所述ID节点关联图中与其相邻的所有邻居节点发送的归属ID;选择所有邻居节点发送的归属ID中最小的归属ID,设为MIN_ID;将MIN_ID与自己的归属ID比较,若MIN_ID小于自己归属的ID,则将MIN_ID设为自己新的归属ID,并设置ID更新标志,并将更新后的归属ID发送给自己所有的邻居节点,若MIN_ID大于等于自己的归属ID,则归属ID不变;
步骤B、若某个节点的归属ID存在更新标志,则重复迭代步骤A,直到所有的节点的归属ID不再更新时停止迭代;
步骤C、将拥有相同的归属ID的节点归属于同一个联通分支,输出所述联通分支中每个节点的ID数据及其归属ID。
可选地,根据预设的编码规则对每个联通分支进行编码得到其对应的唯一特征标识,包括:
根据每一个联通分支中每个节点的ID数据及其归属ID,利用预设的编码规则对每一个联通分支进行编码得到该联通分支对应的唯一特征标识;
所述唯一特征标识由32位16进制0-F构成,分别定义为:
第1-17位:17位,用于表示唯一特征标识生成时间,可以满足当初始化与更新在同一天或者一天内多个更新时,不会存在不同的人相同的唯一特征标识;
第18-19位:2位,保留位,用于区分唯一特征标识的类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810814300.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电池包总成、快换支架总成和电动车
- 下一篇:宽窄带融合GIS系统及通信方法