[发明专利]一种基于集成学习与改变决策阈值的化验数据校验方法在审
申请号: | 202010612164.5 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111858568A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 赵杰;翟运开;叶明;石金铭;陈昊天;卢耀恩;张旭;李明原 | 申请(专利权)人: | 郑州大学第一附属医院 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06K9/62;G06N20/20 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 张励 |
地址: | 450001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 改变 决策 阈值 化验 数据 校验 方法 | ||
本发明公开了一种基于集成学习与改变决策阈值的化验数据校验方法,属于大数据领域,本发明将聚类算法、集成学习的思想和改变决策阈值几个方法结合在一起,得到一个新的强分类器,基于已有的化验数据进行学习得到分类模型,对新的化验数据进行预分类,增加了其准确度,解决了有效的对化验数据进行分类准确度验证的技术问题,本发明通过结合四种不同的单分类器,具有更强的分类能力,对于疾病数据集中数据不均衡问题,在最终决策阶段,通过改变决策阈值,提高分类的准确度,通过多指标从多角度评价分类结果,更好的了解分类结果的准确性。
技术领域
本发明属于大数据技术领域,涉及一种基于集成学习与改变决策阈值的化验数据校验方法。
背景技术
传统的化验数据的准确性依赖于医生的经验积累和外部化验环境,外界环境的干扰也会对化验数据造成不良影响。随着机器学习的不断发展,近年来不断有学者开始研究基于机器学习的化验数据准确度验证方法,但是数据的种类多种多样,且越来越复杂和多样性,基于单分类器建立的化验数据的验证已经无法保证其分类的准确性。
发明内容
本发明的目的是提供一种基于集成学习与改变决策阈值的化验数据校验方法,解决了有效的对化验数据进行分类准确度验证的技术问题。
为实现上述目的,本发明采用如下技术方案:
一种基于集成学习与改变决策阈值的化验数据校验方法,包括如下步骤:
步骤1:建立数个远程终端和中心服务器,所有远程终端均通过互联网与中心服务器通信;
在远程终端中建立数据采集模块、数据清洗模块和分类模块;
在中心服务器中建立对比数据集和多指标评价模块;
步骤2:远程终端通过数据采集模块获取体液化验数据,建立体液数据集,并在数据清洗模块中对体液数据集中的数据进行清洗,包括如下步骤:
步骤S1:对体液化验数据中的缺失值和异常值进行处理,剔除异常数据,得到预处理数据集;
步骤S2:通过均值方差归一化将预处理数据集中的数据转换为同一水平下的数据,得到预处理后数据集;
步骤S3:将预处理后数据集中的70%的数据划分为训练集,再将其中30%的数据划分为测试集;
步骤3:分类模块选择KNN、决策树、支持向量机和逻辑回归算法四种不同的单分类器作为基分类器,组合得到一个集成分类器;
步骤4:远程终端读取中心服务中的对比数据集;
步骤5:分类模块计算基分类器权重,包括如下步骤:
步骤S4:对训练集中的样本通过FCM模糊聚类算法进行聚类划分为两类样本;
步骤S5:基分类器分别在这两类样本上进行分类,通过与对比数据集中的实际标签进行对比,得到每个基分类器的分类错误率e;
步骤S6:根据公式计算得到每个基分类器的权重w;
步骤6:分类模块计算测试集中每个测试样本到每个聚类中心的欧氏距离,将欧氏距离的倒数作为每个测试样本与步骤S4中得到的所述两类样本的相似度S,将相似度S作为测试样本的相似度值;
步骤7:分类模块通过以下公式计算测试样本i的专属权重Wi:
Wi=相似度S×权重w;
对每一个测试样本进行计算,得到每一个测试样本相对于每一个个基分类器的专属权重Wi;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学第一附属医院,未经郑州大学第一附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010612164.5/2.html,转载请声明来源钻瓜专利网。