[发明专利]一种计算样本数据之间的距离的方法及设备在审
申请号: | 201810247666.5 | 申请日: | 2018-03-23 |
公开(公告)号: | CN110298679A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 刘洋;蒋丰泽;赵晓东 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 冯艳莲 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本数据 度量 客户 矩阵 矩阵计算 客户挖掘 设备需要 相似度 申请 | ||
本申请公开了一种计算样本数据之间的距离的方法及设备,可以使计算出的不同样本数据之间的距离能够准确地体现样本数据之间的相似性。在该方案中,客户挖掘设备需要根据与种子客户样本数据相似性最低的P个候选客户的样本数据,以及种子客户的样本数据计算度量矩阵,且该度量矩阵满足:通过度量矩阵计算实际上相似的样本数据(种子客户的样本数据)之间的距离较小,实际上不相似的样本数据(P个候选客户的样本数据)之间的距离较大,显然,基于该度量矩阵计算得到的两个样本数据之间的距离可以更能体现这两个样本数据之间的相似度。
技术领域
本申请涉及计算机技术领域,尤其涉及一种计算样本数据之间的距离的方法及设备。
背景技术
实现精准营销是各类产品推销商推广其产品的目标。目前,产品推销商可以依托现代信息技术手段建立客户挖掘系统,利用客户挖掘系统对多个候选客户的样本数据进行分析,从而在所述多个候选客户中挖掘出潜在客户,实现精准营销。
目前的客户挖掘系统一般是相似性(lookalike)算法实现的。仅需用户提供多个候选客户的样本数据,以及种子客户的样本数据,所述客户挖掘系统即可在所述多个候选客户中选择出潜在客户。其中,种子客户为一定会使用待推销产品的客户。
传统的lookalike算法中需要采用K最近邻(K nearest neighbor,KNN)算法计算与某个样本数据最相似的K个样本数据,且目前常用欧氏距离计算不同样本数据之间的相似性。然而,在实际场景中,样本数据均具有多个维度的特征,且不同维度的特征的数据稀疏性可能较强。例如,某通信运行商开展流量包营销活动,那么每个样本数据如表1所示:
表1
候选客户 是否开通4G服务 是否为VIP客户 (归一化的)月平均流量 客户1 1 0 0.2 客户2 1 1 0.8 客户3 0 1 0.3
其中,“是否开通4G服务”、“是否为VIP”两个特征是布尔型,取值为1或0;“月平均流量”为数值型(归一化后的取值范围为[0,1])。
客户1的样本数据和客户2的样本数据之间的欧氏距离为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810247666.5/2.html,转载请声明来源钻瓜专利网。