[发明专利]用户画像数据清洗方法及装置有效

专利信息
申请号: 201811151130.X 申请日: 2018-09-29
公开(公告)号: CN110968572B 公开(公告)日: 2022-11-18
发明(设计)人: 钱佳;曹文博 申请(专利权)人: 北京小米移动软件有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/953;H04L9/40
代理公司: 北京尚伦律师事务所 11477 代理人: 李蔚
地址: 100085 北京市海淀区清河*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用户 画像 数据 清洗 方法 装置
【说明书】:

本公开是关于用户画像数据清洗方法及装置。方法包括:获取以用户标识为关键字的待处理用户画像数据;识别出待处理用户画像数据中包括非法数据格式的第一脏数据,并将第一脏数据从待处理用户画像数据中过滤,得到第一用户画像数据;将各第一用户画像数据的每个维度都单独拆分并重新聚合,生成以各加密后的设备标识为关键字的第二用户画像数据;根据移动设备识别码与机型的映射关系,识别出第二用户画像数据中移动设备识别码与机型的映射关系错误的第二脏数据;将第二脏数据从第二用户画像数据中过滤得到第三用户画像数据。本公开能够将属于同一用户设备的用户标识和设备标识有效关联,提高信息推送的准确性和可靠性。

技术领域

本公开涉及数据存储技术领域,尤其涉及用户画像数据清洗方法及装置。

背景技术

目前在数据统计领域,因为统计的维度不同,一定会涉及到用户标识(id)和设备id这两种id的关联。目前行业中普遍的做法是提升数据采集质量,在原始数据阶段做好数据采集,但是怎样合理对两个id进行关联映射,并没有通用的常规处理方式。而推送面对海量的用户id数据和复杂的统计逻辑,需要在数据清洗和数据分析层面对不同id进行映射整合。

相关技术中,由于黄牛刷机等因素,导致同一个国际移动设备识别码(imei,International Mobile Equipment Identification Number)信息-摘要算法5(MD5,Message-Digest Algorithm 5)可能对应有多个用户标识,若以用户标识作为关键字(Key)进行统计,则会导致统计结果虚高,严重降低数据质量,导致上层业务没有办法明确知晓哪些id代表同一台设备,从而为业务发展带来隐患。

发明内容

为克服相关技术中存在的问题,本公开实施例提供一种用户画像数据清洗方法及装置。所述技术方案如下:

根据本公开实施例的第一方面,提供一种用户画像数据清洗方法,方法包括:

获取以用户标识为关键字的待处理用户画像数据;所述待处理用户画像数据包括所述用户标识及加密后的设备标识;所述加密后的设备标识包括加密后的移动设备识别码及加密后的媒体接入控制;

识别出所述待处理用户画像数据中包括非法数据格式的第一脏数据,并将所述第一脏数据从所述待处理用户画像数据中过滤,得到第一用户画像数据;

将各所述第一用户画像数据的每个维度都单独拆分并重新聚合,生成以各所述加密后的设备标识为关键字的第二用户画像数据;

根据移动设备识别码与机型的映射关系,识别出所述第二用户画像数据中移动设备识别码与机型的映射关系错误的第二脏数据;

将所述第二脏数据从所述第二用户画像数据中过滤,得到第三用户画像数据。

本公开的实施例提供的技术方案可以包括以下有益效果:该技术方案通过将用户画像数据从以用户标识为关键字的数据存储形式转变为以加密后的设备标识为关键字的数据存储形式,将属于同一用户设备的用户标识和设备标识有效关联,过滤掉数据格式非法及移动设备识别码与机型的映射关系错误的脏数据,提高数据质量,提高信息推送的准确性和可靠性。

在一个实施例中,所述待处理用户画像数据,包括:新增的用户画像数据、及历史的用户画像数据。

在一个实施例中,所述将各所述第一用户画像数据的每个维度都单独拆分并重新聚合,生成以各所述加密后的设备标识为关键字的第二用户画像数据,包括:

分别以各所述加密后的设备标识为关键字对所述第一用户画像数据进行拆分并重新聚合;

将上述拆分并重新聚合的步骤重复执行多次,生成以各所述加密后的设备标识为关键字的第二用户画像数据。

在一个实施例中,所述加密后的移动设备识别码,包括:加密后的国际移动设备识别码imei、和加密后的移动设备识别码meid。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811151130.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top