[发明专利]一种连续性肾脏替代治疗过程中肝素剂量的预测方法有效
申请号: | 201810656262.1 | 申请日: | 2018-06-24 |
公开(公告)号: | CN108831556B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 王东;赵巧凤;连捷;王伟 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70;G06N3/12 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 连续性 肾脏 替代 治疗 过程 肝素 剂量 预测 方法 | ||
1.一种连续性肾脏替代治疗过程中肝素剂量的预测方法,其特征在于包括以下步骤:
步骤1、安装相关软件及库,安装Sublime Text 3软件及一个开源的Python 3.5,另外安装科学计算基础库即numpy、数据分析库即pandas、2D绘图库即matplotlib和缺失数据可视化库即missingno,具体安装步骤为,在windows 10系统下,首先安装Python 3.5,按win+R键快速启动命令窗口,输入cmd,点击确定,输入pip install+所需要的库,按enter键,进行相关库的安装,pip install matplotlib,按enter键,进行matplotlib库的安装,然后下载Sublime Text3软件;
步骤2、分析和了解由医院收集的数据集的相关信息,了解每个数据代表的含义及各自变量所占权重,分析自变量与目标变量即首剂剂量之间的关系,分析首剂剂量的类型,判断其是带分类标签的离散数据还是连续数据,以此作为选择回归模型还是分类模型的依据;
步骤3、数据预处理,首先对完全相同的行数据进行去重,其次分析各属性的数值是不是存在缺失值的情况,如果存在缺失值,要先进行处理,常见的缺失值处理方法有:个案剔除法即Listwise Deletion、均值替换法即Mean Imputation、热卡填充法即Hotdecking、聚类填充法即Clustering imputation、多重替代法即Multiple Imputation,然后采用z-score算法和范围缩放方法相结合的方式,对自变量进行标准化和归一化处理,z-score算法通过公式(1)进行描述,
式中x为样本的某一属性的值,u为该属性的均值,σ为该属性的标准差,X为标准化后的该属性值,范围缩放方法通过公式(2)进行描述,
式中min为该属性的最小值,max为该属性的最大值,Y为归一化后的该属性值;
步骤4、特征提取,利用随机森林和遗传算法相结合的方法进行特征提取,随机森林利用自助法重采样技术和节点随机分支技术,构建多棵决策树,通过投票得到最终分类结果,遗传算法是一种借鉴生物界自然选择和生物体遗传机制的随机搜索算法,其基本原理是进化机制和自然选择法则,其特点是采用简单的二进制编码技术表示复杂结构,即遗传算法中的个体由0和1组成,其中,对应个体为1的属性是要提取的属性,对应个体为0的属性是要舍弃的属性,选取18列属性做为自变量;
步骤5、划分训练集和测试集及不平衡数据的处理,具体包括以下子步骤:
(a)利用机器学习技术领域中的10折交叉验证法划分训练集和测试集,具体做法为,将给定的数据集C,划分成k个大小相似的互斥子集,然后进行k次训练,每次训练将k-1个子集的并集作为训练集,余下的作为测试集,最终返回k个测试结果的均值,在10折交叉验证法中k取值为10;
(b)利用集成学习中的EasyEnsemble算法处理不平衡数据,具体做法为,从多数样本集中,进行n次有放回的随机采样,每次选取与少数类数目近似相等的样本集,于是得到n个样本集合,记作{S1,S2,...,Sn},然后将其中的每一个样本集合与少数类样本集合,结合组成n个样本集合,记作{C1,C2,...,Cn},之后用这n个样本集合分别进行训练和测试,得到n个模型,最后取由这n个模型预测出的值的均值;
步骤6、模型预测及评估,在选择模型之前,先对首剂剂量取ln变换,具体做法是,用python语言np.log()对首剂剂量进行取ln变换,然后用np.exp()对预测出的首剂剂量进行逆变换,以此来保证数据的不变性,在选择模型时,分别对决策树回归模型和梯度提升回归模型进行训练,并采用平均绝对误差MAE、均方误差MSE和R2评估模型,这些评价指标分别用Python语言实现方式是:mean_absolute_error(y_test,y_pred),mean_squared_error(y_test,y_pred),clf.score(X_test,y_test),其中y_test为测试集的实际首剂剂量,y_pred为利用训练模型预测的首剂剂量,X_test为训练集的自变量,平均绝对误差MAE通过公式(3)进行描述,
均方误差MSE通过公式(4)进行描述,
R2评估模型通过公式(5)进行描述,
式(3)、(4)和(5)中,n是测试集的样本集数量,yi是测试集的真实值,fi是测试集的预测值,是测试集的均值,R2大于0.4时,模型拟合效果好,就可以采用此模型预测肝素剂量的首剂剂量,MSE和MAE的取值越小越好,决策树回归模型MSE的取值为0.045-0.095,MAE的取值为0.126-0.213,梯度提升回归模型MSE的取值为0.053-0.087,MAE的取值为0.166-0.212,在评价回归模型中,主要依据是R2评估模型,依据这些评价指标,通过对比决策树回归模型和梯度提升回归模型,最终选择梯度提升回归模型做为预测肝素剂量的首剂剂量模型;
步骤7、预测值的异常值处理,对用梯度提升回归模型预测出的12个数值进行异常值处理,具体做法是,一、将异常值看作缺失值处理,常见的缺失值处理方法见步骤3,二、剔除异常数据,常用方法有,(1)拉依达准则,此算法适用于大数据样本集,(2)肖维勒准则,此算法适用于小数据样本集,(3)格拉布斯准则,此算法使用普遍,(4)狄克逊准则,此算法适用于小数据样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810656262.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:手诊专家及手诊自测体检管理方法
- 下一篇:一种保健管理方法