[发明专利]一种基于随机森林算法的肿瘤数据统计方法在审
申请号: | 202010332980.0 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111524606A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 赵杰;翟运开;马倩倩;叶明;陈昊天;何贤英;崔芳芳;李明原 | 申请(专利权)人: | 郑州大学第一附属医院 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 姜晓钰 |
地址: | 450001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 算法 肿瘤 数据 统计 方法 | ||
1.一种基于随机森林算法的肿瘤数据统计方法,其特征在于:包括如下步骤:
步骤1:建立中央服务器和多个数据采集服务器,所有数据采集服务器均与中央服务器通过互联网通信;
数据采集服务器部署在医院的各个科室内,用于采集各科室内收集到的医疗数据;
步骤2:在中央服务器中建立数据预处理模块、数据库模块、模型建立模块和图形化模块;
步骤3:数据采集服务器向中央服务器定时发送收集到的医疗数据;
中央服务器获取到医疗数据后,通过数据预处理模块对医疗数据进行数据清洗,筛选掉缺失值和异常值,得到清洗后医疗数据;
步骤4:数据预处理模块对清洗后医疗数据进行均值方差归一化处理,得到待处理医疗数据集;
步骤5:数据库模块存储待处理医疗数据集;
步骤6:模型建立模块读取数据库模块中的待处理医疗数据集,并根据以下方法建立风险模型:
步骤S1:以是否患肿瘤作为分层,分别随机抽取2/3样本作为训练集,剩余1/3样本作为测试集;
步骤S2:从平衡训练集中,采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集,而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB),用于评价每棵树的性能;
步骤S3:设定经过筛选后特征总数为M0,在每一棵决策树的任一节点处随机抽取m个特征(mM0),其中通过最小基尼增益值GiniGain作为决策树分类方案,选择一个最具有分类能力、最优特征进行节点分裂,由此构建K个分类树{C1,C2,…,CK}作为弱分类器:
其中S1、S2为样本集S的两个样本子集,n1、n2为两个样本子集的数量,N为样本容量。对于样本S中的特征,计算任意可能的特征组合的GiniGain,选择GiniGain最小的特征值组合作为决策树当前节点的最优分类方案。
步骤S4:使每棵树最大限度地生长,对数据进行分类;
步骤S5:对决策树进行加权处理,使用袋外数据的F1计算每个决策树的分类正确程度,根据以下公式对弱分类器赋予权重:
其中,oobF1(i)表示第i棵决策树的袋外数据的F1值,其为精度和召回率的调和平均;
步骤S6:基于步骤S4的方法加权投票法集成K棵决策树分类结果;
步骤S7:遍历决策树个数K,特征数目m组合,基于运算效率与OOB错误率最小化准则,采用网格搜索算法与十折交叉验证法,将K与m划分网格,通过搜索每个网格中的参数进行参数确定和优化;
步骤S8:向训练好的随机森林模型中导入测试集,输出测试集结果,得到混淆矩阵,通过敏感度Sensitivity、特异性Specificity、准确率Accuracy、G-mean和受试者工作特征曲线ROC下面积AUC指标评估分类器性能;
步骤7:图形化模块将步骤S8得出的分类器性能结果通过图形或表格的形式进行展示。
2.如权利要求1所述的一种基于随机森林算法的肿瘤数据统计方法,其特征在于:所述医疗数据包括肿瘤数据。
3.如权利要求1所述的一种基于随机森林算法的肿瘤数据统计方法,其特征在于:在执行步骤4时,数据预处理模块将清洗后医疗数据作为样本数据,并根据以下公式对清洗后医疗数据进行均值方差归一化处理:
其中,样本数据中的最大值是xmax,样本数据中的最小值是xmin,xmax-xmin表示样本数据的极差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学第一附属医院,未经郑州大学第一附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010332980.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纤维加热系统
- 下一篇:群组分享式摄影方法、拍摄设备、电子设备、存储介质