[发明专利]基于人工智能的数据处理方法、装置、终端及存储介质有效
申请号: | 202011059580.3 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112199417B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 张跃;张浩然 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62;G06N3/12 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 陈敬华;杨毅玲 |
地址: | 518000 广东省深圳市福田区益田路503*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 数据处理 方法 装置 终端 存储 介质 | ||
1.一种基于人工智能的数据处理方法,其特征在于,所述方法包括:
将使用XGBoost模型从原始数据集中选取出的重要数据集切分为多个第一分数据集,使用每个第一分数据集对训练后的第一lightGBM模型进行测试得到第一测试通过率,其中,所述重要数据集与每个第一分数据集具有相同的多个字段;
执行数据集更新过程,包括:将每个第一分数据集中第一个字段对应的数据进行预标准化处理得到第二分数据集,并使用每个第二分数据集对训练后的第二lightGBM模型进行测试得到第二测试通过率,其中,所述第一个字段对应的数据代表重要度最高的数据;根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理,并根据判断得到的判断结果更新所述第二分数据集;
将每个更新后的第二分数据集中第二个字段对应的数据进行预标准化处理得到第三分数据集,并使用每个第三分数据集对训练后的第三lightGBM模型进行测试得到第三测试通过率,并重复执行上述数据集更新过程,直至根据多个更新的第二测试通过率及对应的所述第三测试通过率判断是否需要对所述重要数据集中的最后一个字段对应的数据进行标准化处理,并根据所有的判断结果更新所述重要数据集得到目标数据集,其中,所述最后一个字段对应的数据代表重要度最低的数据。
2.如权利要求1所述的基于人工智能的数据处理方法,其特征在于,所述使用XGBoost模型从原始数据集中选取出重要数据集的过程包括:
基于所述原始数据集训练第一XGBoost模型,获取所述第一XGBoost模型输出的所述原始数据集中每个字段的重要度值,并计算所述第一XGBoost模型的第一预测准确率;
对所述重要度值按照从大到小进行排序;
读取预设数值序列中的第一个数值,从排序后的重要度值中获取所述第一个数值的重要度值对应的第一目标字段,并将所述第一目标字段对应的多个原始数据作为第一子原始数据集;
基于所述第一子原始数据集训练第二XGBoost模型,并计算所述第二XGBoost模型的第二预测准确率;
判断所述第一预测准确率与所述第二预测准确率之间的差值是否小于预设差值阈值;
当所述第一预测准确率与所述第二预测准确率之间的差值小于或者等于预设差值阈值时,将所述第一子原始数据集确定为重要数据集;
当所述第一预测准确率与所述第二预测准确率之间的差值大于所述预设差值阈值时,读取所述预设数值序列中的第二个数值,从排序后的重要度值中获取所述第二个数值的重要度值对应的第二目标字段,并将所述第二目标字段对应的多个原始数据作为第二子原始数据集;
当所述第一预测准确率与所述第二预测准确率之间的差值小于或者等于所述预设差值阈值时,停止读取所述预设数值序列中的数值,并将当前的第二子原始数据集确定为重要数据集。
3.如权利要求1所述的基于人工智能的数据处理方法,其特征在于,所述根据多个所述第一测试通过率及对应的所述第二测试通过率判断是否需要对所述重要数据集中的所述第一个字段对应的数据进行标准化处理,并根据判断得到的判断结果更新所述第二分数据集包括:
判断所述第一测试通过率是否小于所述第二测试通过率;
当确定所述第一测试通过率小于所述第二测试通过率时,生成判断结果为确定需要对所述重要数据集中所述第一个字段对应的数据进行标准化处理,将所述第一分数据集中所述第一个字段对应的数据进行标准化处理后的数据集作为所述第二分数据集;
当确定所述第一测试通过率大于或者等于所述第二测试通过率时,生成判断结果为确定不需要对所述重要数据集中所述第一个字段对应的数据进行标准化处理,将所述第一分数据集作为所述第二分数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011059580.3/1.html,转载请声明来源钻瓜专利网。