[发明专利]一种基于随机森林的离婚判决方法和系统在审

申请号：	202011512345.7	申请日：	2020-12-19
公开（公告）号：	CN112634091A	公开（公告）日：	2021-04-09
发明（设计）人：	郭兵;朱劲松;罗亚;潘建新	申请（专利权）人：	四川大学
主分类号：	G06Q50/18	分类号：	G06Q50/18;G06K9/62
代理公司：	北京汇捷知识产权代理事务所(普通合伙) 11531	代理人：	李宏伟
地址：	610065 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于随机森林离婚判决方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于随机森林的离婚判决方法和系统，所述基于随机森林的离婚判决包括数据处理模块、变量筛选模块、模型训练模块和判决预测模块，获取多个粗筛选变量，并对所述粗筛选变量进行数据整合和缺失值填充；接着，利用逐步回归对所述粗筛选变量进行初步拟合，并根据每个所述粗筛选变量的量级程度，得到多个最终变量；然后，利用随机森林的方法分批次对多个所述最终变量进行训练，然后利用调整参数后的所述随机森林模型进行预测估计，提高模型预测准确度。

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于随机森林的离婚判决方法和系统。

背景技术

从本质上来讲，这是一个在离婚纠纷案件中，以原被告基本信息情况为自变量，裁判结果为因变量的二值分类问题。解决这类分类问题的传统方法莫过于决策树模型。通常决策树模型建立的目的是为了将目标变量以一定标准区分，也就是寻求最纯净的划分，这通常涉及两方面内容：一是决策树的建立，二是决策树的减枝。前者主要通过信息熵，基尼系数等方法确定最优的父节点和子节点(变量重要程度的选择次序)和对于每个变量的最优分裂点；而后者主要为了防止分类节点不断的重复所造成的决策树分支过多而导致的过拟合现象(主要分为预剪枝和后剪枝)。

总体而言，传统决策树模型存在以下几个问题：即使引入剪枝的方法，决策树模型也很容易形成过拟合，从而导致模型的泛化能力很弱；并且还容易受到异常值的影响；当处理非均衡的数据时，结果会有明显的失真，从而导致预测准确率低下。

发明内容

本发明提供了一种基于随机森林的离婚判决方法和系统，提高模型预测准确率。

为实现上述目的，第一方面，本发明提供了一种基于随机森林的离婚判决方法，包括以下步骤：

数据的预处理：主要包括缺失值的填充和变量粗筛选；

利用三种方法进行缺失值的整合：一是相关性变量之间相互填充，二是将所有变量缺失率高于60％的变量舍去，三是借助XGboost的方法通过机器学习自动习得缺失值分类方向；

变量选择：利用逐步回归的方法进行最终变量筛选；

将粗筛选后变量逐个引入模型，每引入一个变量后进行一次显著性检验(F检验)，发生显著变化，则将变量引入，否则忽略，直至对所有变量进行考虑；

将变量贡献度从大到小排列，获得贡献度最高的几个变量。

模型建立：基于决策树模型演化出的多层次随机森林模型；

利用T(可调参数)个决策树模型整合为一个随机森林模型；

对于每一个决策树模型，利用样本抽样决定模型拟合数据，利用列抽样决定模型拟合变量；