[发明专利]一种模型的数据处理方法在审
申请号: | 201811363487.4 | 申请日: | 2018-11-16 |
公开(公告)号: | CN110659266A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 刘俊龙;周鹏程;张发恩 | 申请(专利权)人: | 创新奇智(南京)科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/26 |
代理公司: | 44361 深圳市智享知识产权代理有限公司 | 代理人: | 王琴;蒋慧 |
地址: | 210000 江苏省南京市经济*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征数据 新特征 主模型 分布反馈 筛选 数据处理技术 数据处理 数据更新 停止条件 预设 测试 更新 | ||
本发明涉及数据处理技术领域,尤其涉及一种模型的数据处理方法,包括步骤:提供主模型X;P2、利用特征数据对主模型X进行测试获得测试结果;P3、根据测试结果在特征数据取值的效果分布反馈,选择需要进一步扩展或构造的特征数据;P4、对选择的需要进一步扩展或构造的特征数据进行构造获得新特征数据;P5、利用新构造的新特征数据重新训练主模型X获得模型X1并筛选构造的新特征数据;P6、利用筛选出的新特征数据更新特征数据集获得更新之后的特征数据集;及重新回到步骤P2,直至模型Xn满足预设的停止条件。根据测试结果在特征数据取值的效果分布反馈,选择需要进一步扩展或构造的特征数据,使筛选出来的特征数据对主模型具有较优的改善空间。
【技术领域】
本发明涉及数据处理技术领域,尤其涉及一种模型的数据处理方法。
【背景技术】
现有的特征工程方法通常根据开发者的业务经验、可视化现象设计特征,随机、启发组合或者变换算子构造新特征,在通过训练模型的测试结果进行筛选。这些方法往往无法全面结合特征数据的属性,对模型性能无法得到较好的优化或者对模型的训练时间较长又或者复杂程度高。
【发明内容】
针对现有的特征筛选规则存在对模型性能评估较差的缺陷,本发明提供一种模型的数据处理方法。
本发明为了解决上述技术问题,提供一种模型的数据处理方法,其包括如下步骤:
P1、提供一个主模型X;
P2、利用特征数据对主模型X进行测试获得测试结果;
P3、根据测试结果在特征数据取值的效果分布反馈,选择需要进一步扩展或构造的特征数据;
P4、对选择的需要进一步扩展或构造的特征数据进行构造获得新特征数据;
P5、利用新构造的新特征数据重新训练主模型X获得模型X1并筛选构造的新特征数据;
P6、利用筛选出的新特征数据更新特征数据集获得更新之后的特征数据集;及
P7、重新回到步骤P2,直至模型Xn满足预设的停止条件。
优选地,所述步骤P3中选择需要进一步扩展或构造的特征数据包括如下规则及模型:启发式规则、机器学习模型和强化学习模型。
优选地,上述步骤P5中,包括利用新特征数据训练模型获得新模型并筛选构造的新特征数据和利用性能评估函数对新模型进行性能评估,若新模型的性能评估值满足预设条件,则停止算法步骤。
优选地,所述启发式规则包括如下步骤:
S01、训练一个二分模型;
S02、计算二分模型在特征数据上的效果分布;
S03、根据效果分布找出不平衡特征,对不平衡特征做进一步展开或构造获得新特征数据;
S04、利用新特征数据返回步骤S02;
如此反复循环,直至进一步展开或者构造的新特征数据在二分模型上取值均衡为止,停止算法。
优选地,所述机器学习模型包括如下步骤:
T01、提供一个模型M;
T02、提供训练数据集交叉验证集模型性能评估函数s,特征生成op集合F;
T03、设定最大迭代次数T,性能阈值∈0,∈1,∈2;
T04、基于训练数据集Dtr对所述模型M进行训练获得模型M(0);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(南京)科技有限公司,未经创新奇智(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811363487.4/2.html,转载请声明来源钻瓜专利网。