[发明专利]一种构建用户画像信息的方法、装置及电子设备在审
申请号: | 201910641681.2 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110472998A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 刘正夫;周振华;陈浩;李楚桐;张孝丹 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q30/06;G06K9/62 |
代理公司: | 11442 北京博雅睿泉专利代理事务所(特殊普通合伙) | 代理人: | 马铁良<国际申请>=<国际公布>=<进入 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户族群 画像信息 用户集合 画像 聚类特征 用户数据 集合 装置及电子设备 得分确定 聚类处理 数据包括 唯一对应 发现 构建 输出 | ||
本发明提供一种构建用户画像信息的方法、装置及电子设备,该方法包括:获取特定用户集合对应的用户数据集合,其中,用户数据集合中的每条数据唯一对应于特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;从多个特征中选取部分特征作为聚类特征;基于所选取的聚类特征进行聚类处理,将特定用户集合分为多个用户族群;从多个特征中选取画像发现特征;分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据得分确定每个用户族群对应的画像信息;输出每个用户族群对应的画像信息。
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种构建用户画像信息的方法、一种构建用户画像信息的装置、一种电子设备、及一种可读存储介质。
背景技术
在互联网时代,每天都会产生大量的用户数据。这些用户数据包含了不同用户的特点。利用合适的方法对大量的用户数据进行分析,来构建出合适的用户画像信息,从而根据用户画像信息针对每个用户制定出个性化产品推荐策略。
目前构建用户画像信息的常用的方法是通过专家规则来构建用户画像信息。该方法的优点是可以通过人类主观想法随时调整规则。但是该方法也存在一些缺点,包括:设计合理的专家规则需要丰富的行业经验;而且由于人类的局限性,不能同时对多维度的大数据进行分析,可能会漏掉很多有用的信息,导致构建的用户画像信息准确度较低。
发明内容
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
根据本发明的第一方面,提供了一种构建用户画像信息的方法,包括:
获取特定用户集合对应的用户数据集合,其中,所述用户数据集合中的每条数据唯一对应于所述特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;
从所述多个特征中选取部分特征作为聚类特征;
基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群;
从所述多个特征中选取画像发现特征;
分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据所述得分确定每个用户族群对应的画像信息;
输出每个用户族群对应的画像信息。
可选的,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群包括:
为所述特定用户集合中的每个用户构建由各聚类特征对应的特征值组成的样本,得到用户聚类样本集合;
采用聚类算法,根据所述用户聚类样本集合对所述特定用户集合中的用户进行聚类处理,得到多个用户族群。
可选的,所述获取特定用户集合对应的用户数据集合包括:
获取关于所述特定用户集合的多个数据表;
以用户标识作为主键,将所述多个数据表拼接为一个宽表;其中,所述宽表的每一行对应一个用户,除用户标识以外的每一列对应一个特征;或者,所述宽表的每一列对应一个用户,除用户标识以外的每一行对应一个特征。
可选的,从所述多个特征中选取部分特征作为聚类特征的方法为以下任意一种或多种:
从所述多个特征中选取空值率小于或等于设定值的特征,作为所述聚类特征;
从所述多个特征中选取满足业务需求的部分特征,作为所述聚类特征,其中,所述业务是应用所述画像信息进行决策的业务;
从所述多个特征中选取至少一组类型重复的特征,分别合并每组类型重复的特征得到新的特征,将所述新的特征作为所述聚类特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910641681.2/2.html,转载请声明来源钻瓜专利网。