[发明专利]用户画像方法、装置、计算机设备和存储介质在审
申请号: | 202010345625.7 | 申请日: | 2020-04-27 |
公开(公告)号: | CN111597348A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 孔清扬;吴满芳 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/27;G06F16/35;G06K9/62;G06N3/02 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 画像 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种基于大数据的用户画像方法、装置、计算机设备和存储介质。所述方法包括:获取待分析的用户数据,包括数值变量和非数值变量,对各非数值变量进行实体嵌入编码,将各非数值变量从语义空间映射至向量空间,从向量空间中确定与非数值变量对应的连续向量,对连续向量进行训练生成对应的代表向量。获取基于业务场景预设的聚类范围,根据训练后的K‑means模型,对聚类范围内的数值变量和代表向量进行穷举聚类,生成多个用户聚类结果。计算各用户聚类结果的轮廓系数,确定最大轮廓系数的聚类结果为目标聚类结果,根据目标聚类结果,得到对应的用户画像结果。此外,本发明还涉及区块链技术,用户聚类结果可存储于区块链节点中。
技术领域
本申请涉及计算机技术领域,特别是涉及一种用户画像方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,以及智能终端设备在人们工作生活中的广泛应用,越来越多用户在金融企业的消费行为发生了变化。金融企业大多根据掌握的用户属性和用户消费行为等数据对于用户进行用户画像,来为提供更为满足用户需求的金融服务和更贴切的金融产品。其中,用户画像主要包括用户消费行为信息和用户人口属性信息如出生地,年龄等,利用聚类算法可将用户不同维度的信息进行组合,把行为、属性相似的用户聚在一起。
传统的用户画像方式通常为利用K-Means算法,以样本间距离为衡量标准,将所有样本划分到K个群体,使得群体和群体之间的距离最大化,同时群体内部的样本之间的距离最小化。由于K-Means算法对数据类型要求较高,类别变量比如受教育水平和所在城市等,由于无法在维度空间内刻画类别之间的距离,均不适用于K-Means算法,因此很多用户画像仅根据用户连续变量相关信息进行聚类,聚类完成之后再做统计每个簇在分类变量上的分布信息,或者将类别变量进行独热编码处理,再进行分类。
然而经独热编码后的特征会变成强特征,对K-Means算法的聚类结果有很大的影响,由于K-Means算法对所有聚类指标的权重均相同,会出现分类结果不符合实际业务需求的情况,导致得到的用户画像精确度较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高用户画像精确度的用户画像方法、装置、计算机设备和存储介质。
一种用户画像方法,所述方法包括:
获取待分析的用户数据;所述用户数据包括数值变量和非数值变量;
利用实体嵌入的方式编码各所述非数值变量,将各所述非数值变量从语义空间映射至对应的向量空间;
从所述向量空间中确定与所述非数值变量对应的连续向量;
对所述连续向量进行训练,生成与各所述数值变量对应的代表向量;获取基于业务场景预设的聚类范围;
根据训练后的K-means模型,对所述聚类范围内的所述数值变量和所述代表向量进行穷举聚类,生成多个用户聚类结果;
计算各所述用户聚类结果的轮廓系数,并确定最大轮廓系数的聚类结果为目标聚类结果;
根据所述目标聚类结果,得到对应的用户画像结果。
在其中一个实施例中,所述方法还包括:
获取各所述非数值变量的出现频次,并根据所述出现频次从所述向量空间中确定各所述非数值变量对应的识别标识向量;
将各所述非数值变量对应的识别标识向量确定为原始K-means模型的实际标签;
根据各所述实际标签对所述原始K-means模型进行训练,得到对应的训练后的K-means模型。
在其中一个实施例中,所述从所述向量空间中确定与所述非数值变量对应的连续向量,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010345625.7/2.html,转载请声明来源钻瓜专利网。