[发明专利]一种用户资料预测方法和系统在审
申请号: | 201611236207.4 | 申请日: | 2016-12-28 |
公开(公告)号: | CN108256538A | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 赵岩 | 申请(专利权)人: | 北京酷我科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100084 北京市海淀区农大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练数据 预测数据 数据向量 用户资料 填充 预测 数值型数据 距离最近 属性信息 数据集合 解释性 准确率 筛选 | ||
1.一种用户资料预测方法,其特征在于,包括以下步骤:
对数据集合进行筛选,获取训练数据;
根据所述训练数据的属性信息,确定数据向量;
在所述数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及所述至少一个训练数据与所述待预测数据的距离值;
根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值。
2.根据权利要求1所述的方法,其特征在于,所述训练数据为所述数据集合中样本数据的属性信息与所述样本数据的取值匹配的数据。
3.根据权利要求1所述的方法,其特征在于,当所述待预测数据为分类型数据时,所述根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值,具体包括:
根据所述至少一个训练数据和所述距离值,获取所述至少一个训练数据的类别权重值;
选取所述类别权重值中最大的类别权重值所对应的类别为待预测值。
4.根据权利要求3所述的方法,其特征在于,当所述待预测数据为分类型数据时,所述类别权重值的表达式为:
预测值表达式为:
其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。
5.根据权利要求1所述的方法,其特征在于,当所述待预测数据为数值型数据时,所述根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值,具体包括:
根据至少一个训练数据和距离值,获取待预测数据的预测值。
6.根据权利要求5所述的方法,其特征在于,所述预测值的表达式为:
其中,xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数值,di表示第i个数据与所述待预测数据的距离。
7.一种用户资料预测系统,其特征在于,所述系统包括:
获取单元,用于对数据集合进行筛选,获取训练数据;
确定单元,用于根据所述训练数据的属性信息,确定数据向量;
选取单元,用于在所述数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及所述至少一个训练数据与所述待预测数据的距离值;
所述获取单元,还用于根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值;
其中,所述训练数据为所述数据集合中样本数据的属性信息与所述样本数据的取值匹配的数据。
8.根据权利要求7所述的系统,其特征在于,当所述待预测数据为分类型数据时,所述获取单元,具体用于根据所述至少一个训练数据和所述距离值,获取所述至少一个训练数据的类别权重值;
所述选取单元,用于选取所述类别权重值中最大的类别权重值所对应的类别为待预测数据的类别。
9.根据权利要求8所述的系统,其特征在于,当所述待预测数据为分类型数据时,所述类别权重值的表达式为:
预测值表达式为:
其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。
10.根据权利要求7所述的系统,其特征在于,当所述待预测数据为数值型数据时,所述获取单元,具体用于根据所述至少一个训练数据和所述距离值,获取所述待预测数据的预测值;
其中,所述预测值的表达式为:
xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数值,di表示第i个数据与所述待预测数据的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京酷我科技有限公司,未经北京酷我科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611236207.4/1.html,转载请声明来源钻瓜专利网。