[发明专利]一种用户资料预测方法和系统在审

申请号：	201611236207.4	申请日：	2016-12-28
公开（公告）号：	CN108256538A	公开（公告）日：	2018-07-06
发明（设计）人：	赵岩	申请（专利权）人：	北京酷我科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京亿腾知识产权代理事务所 11309	代理人：	陈霁
地址：	100084 北京市海淀区农大***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练数据预测数据数据向量用户资料填充预测数值型数据距离最近属性信息数据集合解释性准确率筛选
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种用户资料预测方法和系统。该方法可以包括：对数据集合进行筛选，获取训练数据。根据训练数据的属性信息，确定数据向量。在数据向量中，选取与待预测数据距离最近的至少一个训练数据，以及至少一个训练数据与待预测数据的距离值。根据至少一个训练数据和距离值，获取待预测数据的缺失值。该预测方法解决了对分类型数据和数值型数据的缺失值填充问题，提升了填充缺失值的准确率，且增强了结果的可解释性。

技术领域

本发明涉及数据分析技术领域，尤其涉及一种用户资料预测方法和系统。

背景技术

数据缺失是数据分析与处理应用领域必须面对的一个重要问题，它直接影响挖掘模式的正确性和准确性。缺失填充能够为后续处理提供更多信息，在应用中发挥重要作用，成为一种最有效的缺失数据处理方法。缺失填充就是根据观测数据推断或估计缺失数据的过程，传统的方法可以包括回归技术、最近邻方法和均值填充等。

在数据挖掘领域，常用的缺失填充方法是k最近邻填充(k-NN，k-nearestneighbor)。k-NN算法属于非线性方法，具有简单、易于实现和填充准确率高等特点。该算法在预测分类型数据和数值型数据时，分别使用了众数和均值的计算方式，但这两种方式忽略了距离对目标预测值的影响，即距离近的训练样本对未知样本的影响要大于距离远的样本。

发明内容

本发明提供了一种用户资料预测方法和系统。该预测方法解决了对分类型数据和数值型数据的缺失值填充问题，提升了填充缺失值的准确率，且增强了结果的可解释性。

第一方面，提供了一种用户资料预测方法，该方法可以包括：对数据集合进行筛选，获取训练数据。根据训练数据的属性信息，确定数据向量。在数据向量中，选取与待预测数据距离最近的至少一个训练数据，以及至少一个训练数据与待预测数据的距离值。根据至少一个训练数据和距离值，获取待预测数据的缺失值。

在一种可选的实现中，训练数据为数据集合中样本数据的属性信息与样本数据的取值匹配的数据。

在一种可选的实现中，当待预测数据为分类型数据时，根据至少一个训练数据和距离值，获取待预测数据的缺失值，具体包括：根据至少一个训练数据和距离值，获取至少一个训练数据的类别权重值。选取类别权重值中最大的类别权重值所对应的类别为待预测数据的类别。

在一种可选的实现中，当待预测数据为分类型数据时，类别权重值的表达式为：

预测值表达式为：

其中，m为k个最近样本数据中类别为c_j的样本数量，w_cj表示类别c_j的权重值，d_i表示拥有c_j标签的第i个数据与所述待预测数据的距离，为权重集合W中的最大值，c_m为最大对应的类别标签，c_t为待预测样本的缺失值。

在一种可选的实现中，当待预测数据为数值型数据时，根据所述至少一个训练数据和距离值，获取待预测数据的缺失值，具体包括：根据至少一个训练数据和距离值，获取待预测数据的预测值。

在一种可选的实现中，当待预测数据为数值型数据时，预测值的表达式为：

其中，x_t为数据t的待预测值，为k个近邻数据对应数值的平均数，x_i表示第i个数据对应的数值，d_i表示第i个数据与待预测数据的距离。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京酷我科技有限公司，未经北京酷我科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611236207.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于高分遥感影像的筏式海水养殖区域提取方法
下一篇：一种信息处理方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用户资料预测方法和系统在审

专利文献下载