[发明专利]一种计算样本数据之间的距离的方法及设备在审

申请号：	201810247666.5	申请日：	2018-03-23
公开（公告）号：	CN110298679A	公开（公告）日：	2019-10-01
发明（设计）人：	刘洋;蒋丰泽;赵晓东	申请（专利权）人：	华为技术有限公司
主分类号：	G06Q30/02	分类号：	G06Q30/02;G06K9/62
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	冯艳莲
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	样本数据度量客户矩阵矩阵计算客户挖掘设备需要相似度申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种计算样本数据之间的距离的方法及设备，可以使计算出的不同样本数据之间的距离能够准确地体现样本数据之间的相似性。在该方案中，客户挖掘设备需要根据与种子客户样本数据相似性最低的P个候选客户的样本数据，以及种子客户的样本数据计算度量矩阵，且该度量矩阵满足：通过度量矩阵计算实际上相似的样本数据(种子客户的样本数据)之间的距离较小，实际上不相似的样本数据(P个候选客户的样本数据)之间的距离较大，显然，基于该度量矩阵计算得到的两个样本数据之间的距离可以更能体现这两个样本数据之间的相似度。

技术领域

本申请涉及计算机技术领域，尤其涉及一种计算样本数据之间的距离的方法及设备。

背景技术

实现精准营销是各类产品推销商推广其产品的目标。目前，产品推销商可以依托现代信息技术手段建立客户挖掘系统，利用客户挖掘系统对多个候选客户的样本数据进行分析，从而在所述多个候选客户中挖掘出潜在客户，实现精准营销。

目前的客户挖掘系统一般是相似性(lookalike)算法实现的。仅需用户提供多个候选客户的样本数据，以及种子客户的样本数据，所述客户挖掘系统即可在所述多个候选客户中选择出潜在客户。其中，种子客户为一定会使用待推销产品的客户。

传统的lookalike算法中需要采用K最近邻(K nearest neighbor，KNN)算法计算与某个样本数据最相似的K个样本数据，且目前常用欧氏距离计算不同样本数据之间的相似性。然而，在实际场景中，样本数据均具有多个维度的特征，且不同维度的特征的数据稀疏性可能较强。例如，某通信运行商开展流量包营销活动，那么每个样本数据如表1所示：

表1


候选客户	是否开通4G服务	是否为VIP客户	(归一化的)月平均流量
客户1	1	0	0.2
客户2	1	1	0.8
客户3	0	1	0.3

其中，“是否开通4G服务”、“是否为VIP”两个特征是布尔型，取值为1或0；“月平均流量”为数值型(归一化后的取值范围为[0,1])。

客户1的样本数据和客户2的样本数据之间的欧氏距离为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810247666.5/2.html，转载请声明来源钻瓜专利网。

上一篇：用户权益信息处理方法、装置及系统
下一篇：广告管理装置、广告管理方法以及计算机可读记录介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q30-00 商业，例如购物或电子商务
G06Q30-02 .行销，例如，市场研究与分析、调查、促销、广告、买方剖析研究、客户管理或奖励；价格评估或确定
G06Q30-04 .签单或开发票
G06Q30-06 .购买、出售或租赁交易
G06Q30-08 ..拍卖

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种计算样本数据之间的距离的方法及设备在审

专利文献下载