[发明专利]样本数据处理方法、装置及电子设备在审
申请号: | 202010275349.1 | 申请日: | 2020-04-09 |
公开(公告)号: | CN111582315A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 李恒奎 | 申请(专利权)人: | 上海淇毓信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 李博 |
地址: | 201500 上海市崇明区横沙乡富民*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 数据处理 方法 装置 电子设备 | ||
1.一种样本数据处理方法,其特征在于,包括:
将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;
通过带有分类概率的样本集合中的每个样本生成样本概率集合;
将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及
通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。
2.如权利要求1所述的方法,其特征在于,还包括:
通过所述目标样本数据集合对机器学习模型进行训练,生成用户风险分析模型。
3.如权利要求1-2中任一所述的方法,其特征在于,通过所述目标样本数据集合对机器学习模型进行训练,生成用户风险分析模型,包括:
将所述目标样本数据集合划分为训练数据集合和测试数据集合;
基于所述训练数据集合对分布式梯度提升决策树模型进行训练,生成初始用户风险分析模型;以及
通过所述测试数据对所述初始用户风险分析模型进行验证,在验证通过后生成所述用户风险分析模型。
4.如权利要求1-3中任一所述的方法,其特征在于,将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,包括:
通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型;以及
将样本数据集合输入所述分类模型中,生成所述样本数据集合中每个样本的为所述目标分类的分类概率。
5.如权利要求1-4中任一所述的方法,其特征在于,通过带有分类概率的样本集合中的每个样本生成样本概率集合,包括:
将样本集合中的每个样本依据其对应的分类概率依次排列;以及
确定头部比例和尾部比例;
基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,生成所述样本概率集合。
6.如权利要求1-5中任一所述的方法,其特征在于,基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,包括:
按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本;
为所述头部样本和所述尾部样本分配第一权重;以及
为除所述头部样本和所述尾部样本外的其他样本分配第二权重。
7.如权利要求1-6中任一所述的方法,其特征在于,将所述样本概率集合输入采样模型中,生成采样数据集合,包括:
将所述样本概率集合输入SMOTE采样模型中,生成所述采样数据集合。
8.一种样本数据处理装置,其特征在于,包括:
分类模块,用于将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;
概率模块,用于通过带有分类概率的样本集合中的每个样本生成样本概率集合;
采样模块,用于将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及
数据模块,用于通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海淇毓信息科技有限公司,未经上海淇毓信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010275349.1/1.html,转载请声明来源钻瓜专利网。