[发明专利]一种数据处理的方法和装置有效
申请号: | 202011341059.9 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112487262B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 陆祺;张胜言;赖婉英;梁继平 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/90 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;郭晗 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,包括:
从多个不同类别的数据源采集待挖掘用户的用户数据;其中,所述用户数据包括所述待挖掘用户对应的行业类别、金融数据、税务数据、耗能数据、以及用户唯一标识;
聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合;
利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布,根据所述数据分布选择数据分析模型;利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户;
所述分类器模型为随机森林模型,在训练所述随机森林模型时,使用预测能力指标WOE/IV、ROC/AUC、GINI系数、稳定性指标PSI作为评估指标评估所述随机森林模型;所述WOE为证据权重,所述IV 为信息价值,所述ROC曲线代表操作特征曲线,所述AUC 指曲线下的面积,所述GINI系数用于评价特征分类的标准,所述稳定性指标PSI用于衡量测试样本及模型开发样本评分的分布差异;
所述利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户,包括:
利用所述随机森林模型,计算所述特征数据对应的所述待挖掘用户的分数值;当所述分数值大于设定阈值时,将所述分数值对应的所述待挖掘用户确定为所述目标用户。
2.根据权利要求1所述的方法,其特征在于,
从多个不同类别的数据源采集待挖掘用户的用户数据,包括:
在采集所述用户数据时,所述不同类别的数据源为加密文件;其中,所述数据源包括:所述唯一标识归属的数据源、所述金融数据归属的数据源、所述税务数据归属的数据源、所述耗能数据归属的数据源、所述行业类别归属的数据源。
3.根据权利要求1所述的方法,其特征在于,
聚合所述用户数据,将所述用户数据处理为同类别的用户数据集合,包括:
解密并读取采集到的来自不同类别的数据源的所述用户数据,对所述用户数据进行去除异常数据或者去重操作,生成同类别的所述用户数据集合。
4.根据权利要求1所述的方法,其特征在于,
所述数据分布模型包括:集中趋势分析模型、离中趋势分析模型、统计分析模型中的任意一种或多种。
5.根据权利要求1所述的方法,其特征在于,
所述数据分析模型包括:方差分析模型、相关性分析模型、回归分析模型、因子分析模型中的任意一种或多种。
6.根据权利要求1所述的方法,其特征在于,
利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;还包括:
将所述特征数据划分为多个子数据集合,并分别存储所述子数据集合。
7.根据权利要求6所述的方法,其特征在于,
所述利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户,包括:
利用所述随机森林模型,计算所述子数据集合对应的所述待挖掘用户的分数值;当所述分数值大于设定阈值时,将所述分数值对应的所述待挖掘用户确定为所述目标用户。
8.根据权利要求1所述的方法,其特征在于,
利用可视化模块,从多个维度展示所述目标用户的所述特征数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011341059.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:身份验证方法及系统
- 下一篇:一种颗粒饲料配料粉碎工艺