[发明专利]一种基于多模型堆叠融合预测的方法在审
申请号: | 201811052724.5 | 申请日: | 2018-09-10 |
公开(公告)号: | CN109522917A | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 郑子彬;曾璇 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 堆叠 单模型 融合 企业经营行为 预测 企业经营状况 数据预处理 风险状况 模型效果 企业经营 数据分析 特征提取 特征训练 预测能力 验证 经营 概率 退出 | ||
本发明公开了一种基于多模型堆叠融合预测的方法,旨在解决强变量缺失的情况下,利用弱变量客观公正评价企业经营状况,预测企业在未来一段时间内的经营风险状况。本发明首先对企业经营行为数据进行数据分析,并对企业经营行为数据进行数据预处理和特征提取;利用提取的特征训练若干单模型并验证模型效果,选择最优的单模型用于堆叠融合;通过多个单模型堆叠融合的方法预测出企业经营风险的概率值。这种方法对企业的经营退出风险有很好的预测能力。
技术领域
本发明涉及机器学习领域,更具体地,涉及一种基于多模型堆叠融合预测的方法。
背景技术
传统的企业评价主要基于企业的财务信息、借贷记录信息等来判断企业经营状况,以及是否可能违约等信用信息。对于财务健全、在传统银行借贷领域留有记录的大中型企业,这种评价方式无疑较为客观合理。然而,对于更大量的中小微企业,既无法公开获得企业真实财务信息,也无这些企业的公开信用信息,能收集到的可能只有中小企业在多方面留下的行为足迹信息数据,这无疑给中小企业的经营风险预测带来了很大挑战。在强变量缺失的情况下,如何利用弱变量客观公正评价企业经营状况,预测企业在未来一段时间内的经营风险状况,这是需要解决的主要问题。解决这一问题不仅有利于企业自身的管理运营,更有利于政府对经济市场的宏观调控。
本专利的研究数据由DataFountain平台(http://www.datafountain.cn)提供,研究数据主要包括企业身份信息(已脱敏)及企业在一定时间范围内的行为数据,一共包括九张数据表:entbase表记录企业的相关信息;alter表记录企业变更信息;branch表记录企业分支信息;invest表记录企业投资记录;right表记录企业的专利情况;project表记录企业项目情况;lawsuit表记录的是与企业相关的案件纠纷;breakfaith是企业失信记录;resuit表是近几年企业的招聘情况。
发明内容
本发明为克服上述现有技术中在强变量缺失的情况下,如何利用弱变量客观公正评价企业经营状况,预测企业在未来一段时间内的经营风险状况这一问题,提供一种采用机器学习模型来预测企业的管理状况的基于多模型堆叠融合预测的方法。
为解决上述技术问题,本发明的技术方案如下:
S1:从7个单模型中选取5个单模型作为第一层的预测模型;
S2:将数据样本分成五份,依次取其中四份作为训练集,一份作为测试集,分别对五个单模型进行预测,其中每个单模型的测试集都不一样;
S3:第j个单模型对第i个训练样本的预测结果将作为新的训练集中第i个样本的第j个特征值,并作为新的训练集,其中
S4:第j个单模型对第i个测试样本的预测结果将作为新的测试集中第i个样本的第j个特征值,所有测试结果作为新的测试集输入到二层的单模型中进行测试,其中
S5:对每个单模型设置三个不同的随机种子测试同一模型三次,预测得到的三个结果取算数平均做为该模型的预测值,所有模型预测得到的预测值作为新的测试集;
S6:从7个单模型中选取1个单模型作为第二层的预测模型,使用S2中的新的训练集对该单模型进行训练;
S7:将S4中的新的测试集预测S6中训练好的单模型,得到的结果即为预测值。
优选地,所述树模型包括极端梯度提升机XGBoost,轻量级梯度提升机LightGBM,猫类梯度提升机CatBoost,随机森林RandomForest,极度随机树ExtraTree,正则化贪心森林Regularized Greedy Forest (RGF),梯度提升树GradientBoostingClassifier(GBDT)。
优选地,所述7个单模型属于树模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811052724.5/2.html,转载请声明来源钻瓜专利网。