[发明专利]一种极值梯度提升逻辑回归分类预测方法在审

申请号：	201811238800.1	申请日：	2018-10-23
公开（公告）号：	CN109409426A	公开（公告）日：	2019-03-01
发明（设计）人：	陈金香;范谨麒;张云贵	申请（专利权）人：	冶金自动化研究设计院
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京华谊知识产权代理有限公司 11207	代理人：	刘月娥
地址：	100071 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	预测样本逻辑回归逻辑回归模型特征选择分类分类与回归树基分类器模型学习特征结合特征输入叶子节点智能分类组合成新组合特征大数据单模型热编码新样本与逻辑基尼维数融合回归分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种极值梯度提升逻辑回归分类预测方法，属于大数据分析与智能分类预测领域。通过对样本使用极值梯度提升模型学习之后，将各个样本落在每颗分类与回归树的叶子节点位置进行独热编码组合成新的特征，再与之前的特征结合起来形成组合特征，使得样本的特征增多，组成新的样本。采用逻辑回归法对新样本进行分类预测。融合极值梯度提升与逻辑回归方法；利用极值梯度提升进行特征选择，选择cart树作为基分类器，利用基尼不纯度构成一系列的不相关特征，扩大了特征的维数，将新的特征输入到逻辑回归模型中训练会有更好的预测效果。优点在于，分别利用了极值梯度提升的特征选择和特征扩充的功能，解决了单模型逻辑回归模型预测精度低的问题。

技术领域

本发明属于大数据分析与智能分类预测领域，提供了一种极值梯度提升逻辑回归分类预测方法，适用于解决连续或离散的变量，多样本多维离散或连续特征数据的分类与预测，可应用于医疗诊断，故障诊断以及精度预测等领域。

背景技术

数据处理、分析与特征分类预测广泛应用于各个领域，随着人工智能与机器学习理论与方法的蓬勃发展，基于深度学习的分类预测广泛应用于语音系统，人脸识别和目标检测，并取得了突破性进展。但因基于机器学习的分类预测方法无法满足有限样本的学习，迫切需要新算法新理论的研究与创新。

极值梯度提升是由陈天奇提出并封装的一种对数据进行分类与预测的有效集成学习方法之一，由于分类与回归树的基尼分支特性，该集成算法可以不考虑特征之间的相关性，每次选出最优的特征进行分支，极值梯度提升还实现了特征选择的并行化，提高了运行的效率，对样本的随机抽样从一定程度上防止了模型的过拟合问题。但是，极值梯度提升方法不适用于样本特征少且各特征之间的关联性不大的数据的分析，所获预测精度较低。

逻辑回归是一种基于概率的分类算法，它是一种广义线性回归算法，是应用非常广泛的一个分类机器学习算法，它将数据拟合到一个对数损失函数(或者叫做逻辑回归函数)中，从而能够完成对事件发生的概率进行预测。非常适用于特征不相关的离散变量的分类预测，广泛应用于预测是否故障，用户是否流失以及推荐广告等。逻辑回归模型是一种线性模型，对特征处理要求比较高，如果特征处理不当，模型会出现较大缺陷，如果特征变量过多，会导致逻辑回归模型出现多重线性问题，降低预测准确率。如果特征变量较少，解释性不足，得不到理想的结果。

发明内容

本发明的目的在于提供一种极值梯度提升逻辑回归分类预测方法，解决较少特征有限样本数据的高精度分类预测问题。本发明的研究发现融合极值梯度提升特征提取法与逻辑回归建模是解决有限样本数据高精度分类预测的有效途径之一。

本发明的技术方案是：通过对样本使用极值梯度提升模型学习之后，将各个样本落在每颗分类与回归树的叶子节点位置进行独热编码组合成新的特征，再与之前的特征结合起来形成组合特征，使得样本的特征增多，组成新的样本。采用逻辑回归法对新样本进行分类预测。具体方案如下：

步骤1、将所有样本放入极值梯度提升模型中进行训练，极值梯度提升是由一系列分类与回归树集成的，所以可以统计每个样本落在每棵分类与回归树树叶子节点的位置，对于每棵树，对该位置记为1，其余叶子节点记为0，即独热编码。假设有n棵树，每棵树深度为m，则每个样本可增加的特征数为：n*2^m-1

步骤2、将步骤1中的特征数据通过极值梯度提升计算每个特征的重要程度。重要程度计算如下：对于每个特征，计算极值梯度提升中所有分类与回归树树每个分支是否选择该特征的总和。这样可以得到每个特征的重要系数，根据实际情况将重要系数比较低的特征去掉，留下对结果影响相对比较大的特征，可以提高后续的预测准确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于冶金自动化研究设计院，未经冶金自动化研究设计院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811238800.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于近邻成分分析的故障类型识别方法
下一篇：一种按键检测方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种极值梯度提升逻辑回归分类预测方法在审

专利文献下载