[发明专利]一种快速建模的方法在审
申请号: | 201911121863.3 | 申请日: | 2019-11-15 |
公开(公告)号: | CN111079937A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 盛森 | 申请(专利权)人: | 苏州金智渠信息技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N20/10 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215100 江苏省苏州市吴中区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 建模 方法 | ||
本发明提供了一种快速建模的方法,包括:读取配置文件参数并检查输入数据,进行数据类型转化;预处理:缺失值、异常值处理,类别变量编码,时间变量处理,数据失衡处理;特征衍生:根据配置文件对输入原始变量进行衍生;特征选择:进行级联式特征过滤;对算法模型进行训练;模型估计;两数据集距离度量:针对模型训练集、测试集、预测集使用多种距离度量,以辅助建模,变量过滤,数据集之间的差异评估。本发明降低了不同算法人员经验和能力的差异导致的不良学习结果,大大降低了机器学习应用的门槛,并且该框架具有很高的可扩展性和可用性,各个功能都可以组合以灵活应对实际使用需求的变化。
技术领域
本发明属于数据挖掘技术领域,具体涉及一种快速建模的方法。
背景技术
随着大数据、机器学习领域的发展,越来越多公司从数据中挖掘有价值的信息,并通过机器学习在大数据中寻找规律,但是以往都需要专业的算法人员对数据进行清洗、特征生成、特征选择、分类器调优、选择合适的指标,整个过程都是手工一步步进行,并且由于不同业务的数据格式以及好的特征都不相同,导致算法人员需要针对实际情况进行调整,并且不同算法人员的自身经验也会影响最终的效果。具体包括如下技术缺陷:
1、现有算法人员市场上供应严重不足,算法人员能力参差不齐,有经验的算法人员更是稀缺。
2、由于机器学习过程中涉及处理步骤存在诸多共性,但是目前大多数算法人员依然是手工进行重复性处理。
3、算法应用实际经验对于机器学习结果来说至关重要,但是这些优秀的实践经验通常都较难以获得。
发明内容
本发明的目的是提供一种快速建模的方法,通过提炼出机器学习过程中的共性步骤、以配置文件的形式使用,进行标准化机器学习,以降低对算法人员的要求,快速得到给定数据集上的机器学习结果。
本发明提供了一种快速建模的方法,其特征在于,包括:
步骤1,读取配置文件参数并检查输入数据,进行数据类型转化;
步骤2,对数据进行预处理;所述预处理包括缺失值、异常值处理,类别变量编码,时间变量处理,数据失衡处理;
步骤3,特征衍生:根据配置文件对输入原始变量进行衍生;所述原始变量包括用户的访问行为,次数,时间段以及用户标签,以及针对访问行为的基础统计字段;
步骤4,特征选择:根据方差过滤、卡方检验、IV值、互信息、最大信息数、聚类去相关性、逐步回归、树集成模型进行级联式特征过滤;
步骤5,对算法模型进行训练,所述算法模型包括随机森林,XGBoost,SVM,以及人工神经网络;
步骤6,对步骤5模型进行估计,根据模型得出的结果以及模型的权重对预测样本打分;
步骤7,两数据集距离度量:针对模型训练集、测试集、预测集使用多种距离度量,以辅助建模,变量过滤,数据集之间的差异评估。
与现有技术相比本发明的有益效果是:
降低了不同算法人员经验和能力的差异导致的不良学习结果,大大降低了机器学习应用的门槛,并且该框架具有很高的可扩展性和可用性,各个功能都可以组合以灵活应对实际使用需求的变化。
附图说明
图1是本发明两个数据集的分布图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
本实施例提供了一种快速建模的方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州金智渠信息技术有限公司,未经苏州金智渠信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911121863.3/2.html,转载请声明来源钻瓜专利网。