[发明专利]一种用户样本特征优化处理方法和装置在审
申请号: | 201610091834.7 | 申请日: | 2016-02-18 |
公开(公告)号: | CN107092919A | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 席炎;张柯;余舟华;漆远;杨军;李澜博;黄俊;叶伟;郭曦 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京国昊天诚知识产权代理有限公司11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 样本 特征 优化 处理 方法 装置 | ||
1.一种用户样本特征优化处理方法,其特征在于,包括:
确定用户样本集内用户样本的待优化特征,所述用户样本集中包括有正样本;
根据各个用户样本的所述特征的取值以预定的N个分位点将用户样本集内的用户样本划分到N+1个区间,N为大于1的正整数;
对于N+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;
将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。
2.根据权利要求1所述的方法,其特征在于,将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值之后,所述方法还包括:
对用户样本的所述特征的新取值进行归一化处理。
3.根据权利要求2所述的方法,其特征在于,对用户样本的所述特征的新取值进行归一化处理,具体包括:
确定所述特征的新取值中的最大值与最小值;
对所述特征中的每一个新取值,均按如下公式进行处理,将处理后的数值作为所述特征的取值:
其中,Fnew为进行处理后的数值,Fold为进行处理之前所述特征的新取值,Fmax、Fmin分别为所述特征新取值中的最大值与最小值。
4.根据权利要求1所述的方法,其特征在于,将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值之前,所述方法还包括:
选取出每个区间中的比值和所述预定分位点所确定的预设值之间不满足 线性关系的特征。
5.根据权利要求1所述的方法,其特征在于,根据各个用户样本的所述特征的取值以预定的N个分位点将用户样本集内的用户样本划分到N+1个区间,具体包括:
根据各个用户样本的所述特征的取值进行排序;
将N个分位点上对应的取值作为边界,将用户样本集内的用户样本分成N+1个区间。
6.根据权利要求2至3任一项所述的方法,其特征在于,在对用户样本的所述特征的新取值进行归一化处理之后,所述方法还包括,将处理后的用户样本输入线性模型进行训练。
7.一种用户样本特征优化处理装置,其特征在于,包括:特征确定模块、区间划分模块、比值计算模块和特征值确定模块,其中:
所述特征确定模块,用于确定用户样本集内用户样本的待优化特征,所述用户样本集中包括有正样本;
所述区间划分模块,用于根据各个用户样本的所述特征的取值以预定的N个分位点将用户样本集内的用户样本划分到N+1个区间,N为大于1的正整数;
所述比值计算模块,用于对于N+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;
所述特征值确定模块,用于将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括归一化模块,其中:
所述归一化模块,用于对用户样本的所述特征的新取值进行归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610091834.7/1.html,转载请声明来源钻瓜专利网。