[发明专利]用户档案数据处理方法、装置、设备及存储介质有效
申请号: | 202011211687.5 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112328658B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 崔轩 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘丹;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 档案 数据处理 方法 装置 设备 存储 介质 | ||
本申请公开了用户档案数据处理方法、装置、设备及存储介质,涉及大数据领域,通过获取来自不同数据源的多个原始数据集;根据各原始数据集中已知的各用户的属性信息关联关系从多个原始数据集中筛选出相同用户的多个不同第一属性信息;根据预设共现条件从多个原始数据集中筛选出相同用户的多个不同第二属性信息;将各相同用户的第一属性信息和第二属性信息关联,获得最终用户档案信息集合并存储或输出。通过已知的各用户的属性信息关联关系和预设共现条件将不同数据源的多个原始数据集中相同用户的属性信息关联聚合,获取到最终用户档案信息集合,有效实现跨数据源的相同用户的不同属性信息关联,便于用户数据查询和管理,提高处理效率,降低成本。
技术领域
本申请涉及计算机技术中的大数据技术领域,尤其涉及一种用户档案数据处理方法、装置、设备及存储介质。
背景技术
在日常生活中通常在不同的场景中会获取到海量用户数据,海量用户数据中包括用户的一些属性信息,例如交通部门采集到的海量用户数据中包括用户的车牌号码,电信运营商采集到的海量用户数据中包括用户的手机号码,公安部门采集到的海量用户数据中包括用户的身份证件号码等等。
在公安领域等一些应用领域中,通常会获取到来自不同数据源的海量用户数据,但是对于不同数据源的海量用户数据,通常无法直接将其中同一用户的各种数据进行关联及归并,不便于对用户数据进行查询和管理。
发明内容
本申请提供了一种用户档案数据处理方法、装置、设备及存储介质,以实现跨数据源的相同用户的不同属性信息的关联,提高处理效率,降低成本。
根据本申请的第一方面,提供了一种用户档案数据处理方法,包括:
获取来自不同数据源的多个原始数据集,其中每一所述原始数据集中包括多个用户的不同属性信息;
根据各所述原始数据集中已知的各用户的属性信息关联关系,从多个所述原始数据集中筛选出相同用户的多个不同第一属性信息;
根据预设共现条件,从多个所述原始数据集中筛选出相同用户的多个不同第二属性信息;
将各相同用户的第一属性信息和第二属性信息进行关联,根据相互关联的第一属性信息和第二属性信息获得最终用户档案信息集合,并存储或输出。
根据本申请的第二方面,提供了一种用户档案数据处理装置,包括:
获取单元,用于获取来自不同数据源的多个原始数据集,其中每一所述原始数据集中包括多个用户的不同属性信息;
第一筛选单元,用于根据各所述原始数据集中已知的各用户的属性信息关联关系,从多个所述原始数据集中筛选出相同用户的多个不同第一属性信息;
第二筛选单元,用于根据预设共现条件,从多个所述原始数据集中筛选出相同用户的多个不同第二属性信息;
聚合单元,用于将各相同用户的第一属性信息和第二属性信息进行关联,根据相互关联的第一属性信息和第二属性信息获得最终用户档案信息集合,并存储或输出。
根据本申请的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211687.5/2.html,转载请声明来源钻瓜专利网。