[发明专利]一种用户资料预测方法和系统在审
申请号: | 201611236207.4 | 申请日: | 2016-12-28 |
公开(公告)号: | CN108256538A | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 赵岩 | 申请(专利权)人: | 北京酷我科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100084 北京市海淀区农大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练数据 预测数据 数据向量 用户资料 填充 预测 数值型数据 距离最近 属性信息 数据集合 解释性 准确率 筛选 | ||
本发明涉及一种用户资料预测方法和系统。该方法可以包括:对数据集合进行筛选,获取训练数据。根据训练数据的属性信息,确定数据向量。在数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及至少一个训练数据与待预测数据的距离值。根据至少一个训练数据和距离值,获取待预测数据的缺失值。该预测方法解决了对分类型数据和数值型数据的缺失值填充问题,提升了填充缺失值的准确率,且增强了结果的可解释性。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种用户资料预测方法和系统。
背景技术
数据缺失是数据分析与处理应用领域必须面对的一个重要问题,它直接影响挖掘模式的正确性和准确性。缺失填充能够为后续处理提供更多信息,在应用中发挥重要作用,成为一种最有效的缺失数据处理方法。缺失填充就是根据观测数据推断或估计缺失数据的过程,传统的方法可以包括回归技术、最近邻方法和均值填充等。
在数据挖掘领域,常用的缺失填充方法是k最近邻填充(k-NN,k-nearestneighbor)。k-NN算法属于非线性方法,具有简单、易于实现和填充准确率高等特点。该算法在预测分类型数据和数值型数据时,分别使用了众数和均值的计算方式,但这两种方式忽略了距离对目标预测值的影响,即距离近的训练样本对未知样本的影响要大于距离远的样本。
发明内容
本发明提供了一种用户资料预测方法和系统。该预测方法解决了对分类型数据和数值型数据的缺失值填充问题,提升了填充缺失值的准确率,且增强了结果的可解释性。
第一方面,提供了一种用户资料预测方法,该方法可以包括:对数据集合进行筛选,获取训练数据。根据训练数据的属性信息,确定数据向量。在数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及至少一个训练数据与待预测数据的距离值。根据至少一个训练数据和距离值,获取待预测数据的缺失值。
在一种可选的实现中,训练数据为数据集合中样本数据的属性信息与样本数据的取值匹配的数据。
在一种可选的实现中,当待预测数据为分类型数据时,根据至少一个训练数据和距离值,获取待预测数据的缺失值,具体包括:根据至少一个训练数据和距离值,获取至少一个训练数据的类别权重值。选取类别权重值中最大的类别权重值所对应的类别为待预测数据的类别。
在一种可选的实现中,当待预测数据为分类型数据时,类别权重值的表达式为:
预测值表达式为:
其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。
在一种可选的实现中,当待预测数据为数值型数据时,根据所述至少一个训练数据和距离值,获取待预测数据的缺失值,具体包括:根据至少一个训练数据和距离值,获取待预测数据的预测值。
在一种可选的实现中,当待预测数据为数值型数据时,预测值的表达式为:
其中,xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数值,di表示第i个数据与待预测数据的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京酷我科技有限公司,未经北京酷我科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611236207.4/2.html,转载请声明来源钻瓜专利网。