[发明专利]基于人工智能的数据处理方法、装置、终端及存储介质有效

专利信息
申请号: 202011059580.3 申请日: 2020-09-30
公开(公告)号: CN112199417B 公开(公告)日: 2022-05-13
发明(设计)人: 张跃;张浩然 申请(专利权)人: 中国平安人寿保险股份有限公司
主分类号: G06F16/2458 分类号: G06F16/2458;G06K9/62;G06N3/12
代理公司: 深圳市赛恩倍吉知识产权代理有限公司 44334 代理人: 陈敬华;杨毅玲
地址: 518000 广东省深圳市福田区益田路503*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 人工智能 数据处理 方法 装置 终端 存储 介质
【说明书】:

发明涉及人工智能技术领域,提供一种基于人工智能的数据处理方法、装置、终端及存储介质,包括:将使用XGBoost模型从原始数据集中选取出的重要数据集切分为多个分数据集;使用每个分数据集训练并测试lightGBM模型得到测试通过率;将分数据集中第一个字段对应的训练数据及测试数据进行预标准化处理得到新的分数据集;使用新的分数据集训练并测试lightGBM模型得到测试通过率;根据两次测试通过率判断是否需要对第一个字段对应的数据进行标准化处理;重复执行上述过程直至判断是否需要对重要数据集中最后一个字段对应的数据进行标准化处理,根据所有的判断结果更新重要数据集得到目标数据集。本发明能够选取出具有较强稳定性且对预测模型具有较大贡献度的数据集。

技术领域

本发明涉及人工智能技术领域,具体涉及一种基于人工智能的数据处理方法、装置、终端及存储介质。

背景技术

在代理人留存/低业绩预测模型中,部分特征由于受到季节性(例如2月入司人数和质量)和业务方面(例如强推APP、考核月和非考核月的新人质量)的影响,存在跨时间不稳定的现象,即特征的分布(均值、标准差等等)随时间变化而变化,这就给模型的训练和跨时间预测带来了困难。

此外,由于代理人留存/低业绩预测模型的训练是将预测月份的前3至6个月的数据作为一个训练集整体来进行训练(例如预测9月的留存/低业绩模型的训练集是3月-6月的数据做为一个整体),常用的树模型(GBDT/XGBOOST等等)是针对特征在训练月份(4月-6月)的整体分布而寻找最优分裂点。然而每个月的入司人群的质量可能略有差异,这就导致寻找到的最优分裂点在训练的多个月份不一定稳定;预测月份和训练月份的入司的人群质量、特征分布也存在差异,这就为模型跨时间预测的稳定性造成了潜在的隐患。

发明内容

鉴于以上内容,有必要提出一种基于人工智能的数据处理方法、装置、终端及存储介质,能够从原始数据集中选取出具有较强稳定性且对预测模型具有较大贡献度的目标数据集。

本发明的第一方面提供一种基于人工智能的数据处理方法,所述方法包括:

将使用XGBoost模型从原始数据集中选取出的重要数据集切分为多个第一分数据集,使用每个第一分数据集对训练后的第一lightGBM模型进行测试得到第一测试通过率,其中,所述重要数据集与每个第一分数据集具有相同的多个字段;

将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集,并使用每个第二分数据集对训练后的第二lightGBM模型进行测试得到第二测试通过率;

根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理,并根据判断得到的判断结果更新所述第二分数据集;

将每个更新后的第二分数据集中第二个字段对应的数据进行预标准化处理得到第三分数据集,并使用每个第三分数据集对训练后的第三lightGBM模型进行测试得到第三测试通过率;

重复执行上述过程直至判断是否需要对所述重要数据集中的最后一个字段对应的数据进行标准化处理,并根据所有的判断结果更新所述重要数据集得到目标数据集。

可选的,所述使用XGBoost模型从原始数据集中选取出重要数据集的过程包括:

基于所述原始数据集训练第一XGBoost模型,获取所述第一XGBoost模型输出的所述原始数据集中每个字段的重要度值,并计算所述第一XGBoost模型的第一预测准确率;

对所述重要度值按照从大到小进行排序;

读取预设数值序列中的第一个数值,从排序后的重要度值中获取所述第一个数值的重要度值对应的第一目标字段,并将所述第一目标字段对应的多个原始数据作为第一子原始数据集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011059580.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top