[发明专利]一种构建用户画像信息的方法、装置及电子设备在审
申请号: | 201910641681.2 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110472998A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 刘正夫;周振华;陈浩;李楚桐;张孝丹 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q30/06;G06K9/62 |
代理公司: | 11442 北京博雅睿泉专利代理事务所(特殊普通合伙) | 代理人: | 马铁良<国际申请>=<国际公布>=<进入 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户族群 画像信息 用户集合 画像 聚类特征 用户数据 集合 装置及电子设备 得分确定 聚类处理 数据包括 唯一对应 发现 构建 输出 | ||
1.一种构建用户画像信息的方法,其特征在于,包括:
获取特定用户集合对应的用户数据集合,其中,所述用户数据集合中的每条数据唯一对应于所述特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;
从所述多个特征中选取部分特征作为聚类特征;
基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群;
从所述多个特征中选取画像发现特征;
分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据所述得分确定每个用户族群对应的画像信息;
输出每个用户族群对应的画像信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群包括:
为所述特定用户集合中的每个用户构建由各聚类特征对应的特征值组成的样本,得到用户聚类样本集合;
采用聚类算法,根据所述用户聚类样本集合对所述特定用户集合中的用户进行聚类处理,得到多个用户族群。
3.根据权利要求1所述的方法,其特征在于,所述获取特定用户集合对应的用户数据集合包括:
获取关于所述特定用户集合的多个数据表;
以用户标识作为主键,将所述多个数据表拼接为一个宽表;其中,所述宽表的每一行对应一个用户,除用户标识以外的每一列对应一个特征;或者,所述宽表的每一列对应一个用户,除用户标识以外的每一行对应一个特征。
4.根据权利要求1所述的方法,其特征在于,从所述多个特征中选取部分特征作为聚类特征的方法为以下任意一种或多种:
从所述多个特征中选取空值率小于或等于设定值的特征,作为所述聚类特征;
从所述多个特征中选取满足业务需求的部分特征,作为所述聚类特征,其中,所述业务是应用所述画像信息进行决策的业务;
从所述多个特征中选取至少一组类型重复的特征,分别合并每组类型重复的特征得到新的特征,将所述新的特征作为所述聚类特征;
从所述多个特征中选取至少一组类型重复的特征,分别从每组类型重复的特征中选取一个代表特征,将所述代表特征作为所述聚类特征。
5.根据权利要求4所述的方法,其特征在于,所述用户数据集合为以用户标识作为主键的宽表;
当从所述多个特征中选取空值率小于设定值的特征时,该方法还包括如下计算特征空值率的步骤:
根据所述宽表,获得用户的总数量,作为第一数量;
根据所述宽表,分别获得每个特征的特征值为空的用户的数量,作为每个特征对应的第二数量;
分别确定每个特征对应的第二数量和所述第一数量的比值,作为每个特征的空值率。
6.根据权利要求1所述的方法,其特征在于,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群的步骤包括:
根据所述聚类特征的特征值,确定每两个用户之间的欧式距离;
根据每两个用户之间的欧式距离对所述特定用户集合中的用户进行聚类,得到多个所述用户族群。
7.根据权利要求6所述的方法,其特征在于,所述用户族群的数量为设定数量;
所述根据每两个用户之间的欧式距离对所述特定用户集合中的用户进行聚类,得到多个所述用户族群的步骤包括:
选取欧式距离最大的设定数量个用户,分别作为每个用户族群的初始中心;
将其他用户划分至与对应的初始中心之间的欧式距离最近的用户族群中;其中,所述其他用户为所述特定用户集合中除所述设定数量个用户以外的用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910641681.2/1.html,转载请声明来源钻瓜专利网。