[发明专利]一种基于随机森林的离婚判决方法和系统在审
申请号: | 202011512345.7 | 申请日: | 2020-12-19 |
公开(公告)号: | CN112634091A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 郭兵;朱劲松;罗亚;潘建新 | 申请(专利权)人: | 四川大学 |
主分类号: | G06Q50/18 | 分类号: | G06Q50/18;G06K9/62 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 李宏伟 |
地址: | 610065 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 离婚 判决 方法 系统 | ||
本发明公开了一种基于随机森林的离婚判决方法和系统,所述基于随机森林的离婚判决包括数据处理模块、变量筛选模块、模型训练模块和判决预测模块,获取多个粗筛选变量,并对所述粗筛选变量进行数据整合和缺失值填充;接着,利用逐步回归对所述粗筛选变量进行初步拟合,并根据每个所述粗筛选变量的量级程度,得到多个最终变量;然后,利用随机森林的方法分批次对多个所述最终变量进行训练,然后利用调整参数后的所述随机森林模型进行预测估计,提高模型预测准确度。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于随机森林的离婚判决方法和系统。
背景技术
从本质上来讲,这是一个在离婚纠纷案件中,以原被告基本信息情况为自变量,裁判结果为因变量的二值分类问题。解决这类分类问题的传统方法莫过于决策树模型。通常决策树模型建立的目的是为了将目标变量以一定标准区分,也就是寻求最纯净的划分,这通常涉及两方面内容:一是决策树的建立,二是决策树的减枝。前者主要通过信息熵,基尼系数等方法确定最优的父节点和子节点(变量重要程度的选择次序)和对于每个变量的最优分裂点;而后者主要为了防止分类节点不断的重复所造成的决策树分支过多而导致的过拟合现象(主要分为预剪枝和后剪枝)。
总体而言,传统决策树模型存在以下几个问题:即使引入剪枝的方法,决策树模型也很容易形成过拟合,从而导致模型的泛化能力很弱;并且还容易受到异常值的影响;当处理非均衡的数据时,结果会有明显的失真,从而导致预测准确率低下。
发明内容
本发明提供了一种基于随机森林的离婚判决方法和系统,提高模型预测准确率。
为实现上述目的,第一方面,本发明提供了一种基于随机森林的离婚判决方法,包括以下步骤:
数据的预处理:主要包括缺失值的填充和变量粗筛选;
利用三种方法进行缺失值的整合:一是相关性变量之间相互填充,二是将所有变量缺失率高于60%的变量舍去,三是借助XGboost的方法通过机器学习自动习得缺失值分类方向;
变量选择:利用逐步回归的方法进行最终变量筛选;
将粗筛选后变量逐个引入模型,每引入一个变量后进行一次显著性检验(F检验),发生显著变化,则将变量引入,否则忽略,直至对所有变量进行考虑;
将变量贡献度从大到小排列,获得贡献度最高的几个变量。
模型建立:基于决策树模型演化出的多层次随机森林模型;
利用T(可调参数)个决策树模型整合为一个随机森林模型;
对于每一个决策树模型,利用样本抽样决定模型拟合数据,利用列抽样决定模型拟合变量;
基于计算出的信息增益和基尼指数,按照设定的分裂法,得到相应得分裂顺序和分裂阈值点;
其中,基于计算出的信息增益和基尼指数,按照设定的分裂法,得到对应的分裂顺序和分裂阈值点之前,所述方法还包括:
将对应分类下的样本率与以2为底所述样本率的对数进行乘积,对所有的样本进行求和,求负值后得到第一分裂熵值;
对所有的所述样本率进行求和,得到第二分裂熵值,并与所述第一分裂熵值求差后,得到信息增益。
其中,基于计算出的信息增益和基尼指数,按照设定的分裂法,得到对应的分裂顺序和分裂阈值点之前,所述方法还包括:
利用1减去对所有的样本率的平方求和后的求和值,得到第一基尼系数;
将所述第一基尼系数与对应的所述样本率进行乘积,利用1减去对所有乘积求和后的数值后,得到第二基尼系数;
利用所述第一基尼系数减去所述第二基尼系数,得到对应的所述基尼指数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011512345.7/2.html,转载请声明来源钻瓜专利网。