[发明专利]一种基于电子病历数据挖掘的糖尿病预测模型构建方法在审
申请号: | 201910161929.5 | 申请日: | 2019-03-05 |
公开(公告)号: | CN109920547A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 闫健卓;孔永辉;谭绍峰;贺东东 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/70;G16H10/60 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子病历 构建 糖尿病预测模型 糖尿病性肾病 清洗 基本信息 数据挖掘 数据存入数据库 糖化 模型评价指标 错误数据 生化检查 数据包括 数据清洗 数据通过 算法模型 卫生资源 异常数据 预测模型 诊断信息 重复数据 病案 检出率 分类 整合 去除 服务器 糖尿病 样本 诊断 合并 防治 人群 预测 改进 | ||
1.一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:本方法的实施步骤如下,
步骤1:将从各个服务器导出来的电子病历数据通过唯一的病案号进行数据的整合,将电子病历的基本信息和诊断信息等合并成一个完整的样本;
步骤2:将电子病历数据预处理,得到干净的可用的电子病历数据并存入数据库;
步骤3:分析所得的电子病历数据情况,确定糖尿病的若干个危险因素,根据糖尿病数据的特点对选取的BP神经网络进行改进,并在此基础上建立糖尿病预测模型;根据糖尿病数据的特点对选取的BP神经网络进行改进,并在此基础上建立糖尿病预测模型,并使用处理过的电子病历数据进行实验;
步骤4:采用K近邻、逻辑回归、决策树、随机森林算法对糖尿病数据进行模型的训练预测,并与步骤3的结果对比。
2.根据权利要求1所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:步骤1具体包括:电子病历的数据包括基本信息包括入院日期、出院日期、姓名、年龄、性别以及诊断、糖化以及生化检查数据;基本信息和住院检查数据来源于不同的服务器和数据库,需要对其进行整合得到可用于统计分析的数据集。
3.根据权利要求1所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:步骤2:电子病历预处理包括:数据清洗、数据变换、数据规约。
4.根据权利要求3所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:数据清洗:将检查检验数据通过住院号与患者的基本信息匹配好后,发现数据存在可读性不强、部分体检化验数据缺失严重,部分数据存在异常值等问题;噪声数据由于病历是由医生手工记录的,记录形式不统一,不同的医生记录的方式不同,因此首先对数据进行了数据的清洗,去除异常数据、重复数据和存在的错误数据。
5.根据权利要求3所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:数据变换:包括几个方面内容,第一如果需要的特征不存在,通过已有的特征计算得到,其次对于数据中不满足规范的数据进行数据规范化的处理。
6.根据权利要求3所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:数据规约:原始数据中包含很多的特征,并不是所有的特征都需要,减少无帮助的数据特征。
7.根据权利要求1所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:步骤3:糖尿病预测模型的构建,在分析了电子病历数据的特点之后,选取BP神经网络作为基础预测模型,根据BP神经网络存在对初始权重敏感,极易收敛于局部极小的缺点以及糖尿病数据的不规则时序特点,对BP神经网络进行了改进,使其能够后更好的达到预测的效果。
8.根据权利要求1所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:步骤4:实验结果对比:同时采用了K近邻、逻辑回归、决策树、随机森林算法对处理后的糖尿病数据进行了预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910161929.5/1.html,转载请声明来源钻瓜专利网。