[发明专利]特征数据处理方法和装置有效
申请号: | 201811359743.2 | 申请日: | 2018-11-15 |
公开(公告)号: | CN109582741B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 刘松吟;董扬 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 数据处理 方法 装置 | ||
1.一种特征数据处理方法,包括:
确定用户样本集合的指定特征中的离群数据,其中,所述用户样本集合中包含大量的用户样本,一个用户样本中包含多个维度的特征,且用户样本中包含的特征是用户使用互联网的过程中产生的;
对所述用户样本集合中的离群数据进行缩放处理得到缩放后用户样本集合,其中,所述离群数据缩放后的数据大于缩放前用户样本集合的指定特征中的非离群数据;
对所述缩放后用户样本集合进行聚类处理;
基于聚类处理后的多个簇,将所述缩放后用户样本集合在各个簇对应的指定特征区间中的指定特征数据分别进行归一化处理。
2.根据权利要求1所述的方法,所述确定用户样本集合的指定特征中的离群数据包括:
确定用户样本集合的指定特征的平均数和标准差;
将所述用户样本集合的指定特征中,位于平均数的m个标准差范围之外的特征数据确定为离群数据,m是正数。
3.根据权利要求2所述的方法,对所述用户样本集合中的离群数据进行缩放处理包括:基于如下公式对所述用户样本集合中的离群数据进行缩放处理:
其中,表示所述离群数据缩放后的数据中的第i个;
xi表示所述用户样本集合中的第i个离群数据;
μ表示所述用户样本集合的指定特征的平均数;
σ表示所述用户样本集合的指定特征的标准差。
4.根据权利要求3所述的方法,所述将所述缩放后用户样本集合在各个簇对应的指定特征区间中的指定特征数据分别进行归一化处理之前,所述方法还包括:
基于聚类处理后的多个簇的中心点,对聚类处理后的多个簇进行排序;
对排序后的多个簇的边界进行微调,得到各个簇对应的指定特征区间。
5.根据权利要求4所述的方法,所述将所述缩放后用户样本集合在各个簇对应的指定特征区间中的指定特征数据分别进行归一化处理之前,所述方法还包括:
判断落入聚类处理后的多个簇中的指定特征数据是否是长尾分布;
基于判断结果,确定是否重新确定所述用户样本集合的指定特征中的离群数据。
6.根据权利要求5所述的方法,所述基于判断结果,确定是否重新确定所述用户样本集合的指定特征中的离群数据包括:
如果落入聚类处理后的多个簇中的指定特征数据是长尾分布,则减小m的取值,并基于减小后m的取值重新确定用户样本集合的指定特征中的离群数据。
7.根据权利要求1至6任一项所述的方法,所述对所述缩放后用户样本集合进行聚类处理包括:
根据所述缩放后用户样本集合的多个特征,以及预设的聚类算法,对所述缩放后用户样本集合进行聚类处理。
8.根据权利要求7所述的方法,所述确定用户样本集合的指定特征中的离群数据之前,所述方法还包括:
确定所述用户样本集合的多个特征之间的相关系数矩阵;
基于所述相关系数矩阵对所述用户样本集合的多个特征进行筛选处理。
9.根据权利要求1所述的方法,所述将所述缩放后用户样本集合在各个簇对应的指定特征区间中的指定特征数据分别进行归一化处理包括:
基于如下公式对各个簇对应的指定特征区间中的指定特征数据分别进行归一化处理:
其中,j表示各个簇对应的指定特征区间的编号;
xi表示第j个指定特征区间中,归一化处理前的指定特征数据的第i个;
表示第j个指定特征区间中,归一化处理后的指定特征数据的第i个;表示第j个指定特征区间的最大值;
表示第j个指定特征区间的最小值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811359743.2/1.html,转载请声明来源钻瓜专利网。