[发明专利]基于集成学习的川崎病风险评估模型的构建方法及系统有效
申请号: | 201811306908.X | 申请日: | 2018-11-05 |
公开(公告)号: | CN109065171B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 丁国徽;贾佳;李光;徐重飞;周珍 | 申请(专利权)人: | 道之精准医学科技(上海)有限公司 |
主分类号: | G16H50/50 | 分类号: | G16H50/50 |
代理公司: | 苏州三英知识产权代理有限公司 32412 | 代理人: | 朱如松 |
地址: | 201600 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集成 学习 川崎病 风险 评估 模型 构建 方法 系统 | ||
1.一种基于集成学习的川崎病风险评估模型的构建方法,其特征在于:所述方法包括以下步骤:
(1)数据样本选择步骤:从样本数据集中提取可用于建模及模型评估的有效样本;
(2)特征筛选步骤:从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征;
(3)构建步骤:采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阈值t;
(4)构造新数据集步骤:根据(3)得到的川崎病患病风险预测基础模型,及分类阈值t,进行新数据集的构造;
(5)整合步骤:通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证,获得分类的先验概率,以及对每种模型的预测情况进行匹配,获得二分类的后验概率;根据二类后验概率的比较结果评估川崎病风险的风险大小,即获得基于集成学习的川崎病风险评估模型;
其中,构建步骤具体包括:
3.1现有不完整数据集和完整数据集:将不完整数据集随机分割为训练集、验证集,并以完整数据集作为测试集;
3.2在训练集上进行基础模型建构;
3.2.1.使用随机森林算法拟合训练集进行模型构建,根据袋外误差,记录最优模型参数:
3.2.1.1随机选取训练集的三分之二用于训练模型,使用随机森林方法,以不同的参数值重复建立随机森林模型;
3.2.1.2将剩余三分之一的观测值作为袋外观测值,利用袋外观测值,在步骤3.2.1.1所建立的每一个模型中,预测袋外观测值的响应值,记录预测误差;
3.2.1.3比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数;
3.2.2使用Boosting算法拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数:
3.2.2.1将训练集数据平均分为十部分;
3.2.2.2取其中九折数据,使用Boosting的方法进行拟合,得到模型;
3.2.2.3利用步骤3.2.2.2所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
3.2.2.4改变参数,重复步骤3.2.2.2~3.2.2.3;
3.2.2.5比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数;
3.2.3使用线性模型拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数:
3.2.3.1将训练集数据平均分为十部分;
3.2.3.2取其中九折数据,使用logistic的方法进行拟合,得到模型:
其中p(X)表示事件发生概率,X表示样本是否发生事件,β0及β=(β1,β2,...,βn)为模型系数,n为进入到模型中的变量个数;
3.2.3.3利用步骤3.2.3.2所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
3.2.3.4改变参数,重复步骤3.2.3.2~3.2.3.3;
3.2.3.5比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数;
3.2.4使用神经网络算法拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数:
3.2.4.1对整体样本离差标准化,将样本数据压缩到[0,1]区间内,并消除量纲:
其中,xi为第i个特征向量,maxi、mini分别为第i个特征向量的最大值、最小值,xi*代表经过变换后的特征向量;
3.2.4.2将训练集数据平均分为十部分;
3.2.4.3取其中九折数据,使用神经网络的方法进行拟合,得到模型;
3.2.4.4利用步骤3.2.4.3所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
3.2.4.5改变参数,重复步骤3.2.4.3~3.2.4.4;
3.2.4.6比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数;
3.3根据ROC曲线使用验证集计算四个基础模型的模型分类阈值t=(tRFM,tBSTM,tGLM,tNNET):
3.3.1利用所述四个基础模型分别得到的最优参数模型,在训练集上建立最优模型;
3.3.2使用验证集观测值,在利用所述四个基础模型分别得到的最优参数模型上进行预测,得到分类得分;
3.3.3在[0,1]范围内,选取不同数值作为分类阈值,对步骤3.3.2所得分类得分进行划分;
3.3.4计算不同分类阈值下,预测的敏感性、特异性和正确率,并绘制ROC曲线图,选择分类阈值t;
其中,tRFM表示基于随机森林算法得到的分类阈值,tBSTM表示基于Boosting算法得到的分类阈值,tGLM表示基于线性模型算法得到的分类阈值,tNNET表示基于神经网络算法得到的分类阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于道之精准医学科技(上海)有限公司,未经道之精准医学科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811306908.X/1.html,转载请声明来源钻瓜专利网。