[发明专利]一种基于机器学习的2型糖尿病预测预警方法在审
申请号: | 201710665605.6 | 申请日: | 2017-08-07 |
公开(公告)号: | CN107403072A | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 杨胜齐;吴寒;丁梦;王冰笛 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于机器学习的2型糖尿病预测预警方法,通过K‑means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K‑means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型。本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块等五大模块。主要应用在糖尿病早期预测分析、高危人群预警分级以及糖尿病日常健康管理等三大方面。本方法在实际应用中具有更高的预测准确性,更加专注每个实例的健康参数,同时针对非糖尿病实例进行预警分级,能起到更好的防范作用,做到疾病的提早预防。 | ||
搜索关键词: | 一种 基于 机器 学习 糖尿病 预测 预警 方法 | ||
【主权项】:
一种基于机器学习的2型糖尿病预测预警方法,该方法通过K‑means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K‑means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型;本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块,数据收集模块与数据预处理模块连接,数据预处理模块与预测分析模块连接,预测分析模块与预警分级模块连接,预警分级模块和日常管理模块连接;其特征在于:本方法包括以下步骤:(1)基于现有的健康大数据,获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等;首先对每一个实例以糖尿病和非糖尿病进行标记;(2)对糖尿病参数数据库中的原始数据做数据预处理;预处理包括确定统一的数据项以及每一项的具体格式,具体格式为枚举型或数值型等,然后通过数据清洗和数据标准化提高原始数据的质量;(3)使用K‑means算法和Logistic Regression算法的双层预测分析模型分析处理过的数据集,对每个实例属于糖尿病或是非糖尿病进行预测分类;(4)使用C4.5算法和K‑means算法结合的分析模型结合现有高危人群划分标准对非糖尿病进行预警分级,提出无风险、低风险和高风险三类标识;(5)通过引入最新的糖尿病参数数据,对所有糖尿病参数数据以统一规范的数据格式进行存储并及时反馈至数据收集模块以进行进一步优化;在丰富数据集的基础上,反复步骤(2)、(3)、(4)进行训练以优化本方法的实际应用效果;所述的数据收集模块是基于现有的健康大数据,通过获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,对每一个实例以糖尿病和非糖尿病进行标记;所述的数据预处理模块分为两个基本步骤,分别是数据清洗和数据标准化;数据清洗包括一致性检查和缺失值处理,一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据;缺失值处理即将数据集中缺少的值使用平均值进行替代;数据标准化是在数据清洗完成后,为避免计算过程中数值复杂度,以及避免大数值区间的属性过分支配小数值区间的属性,将所有糖尿病参数中的属性进行Normalize,规范到数值区间[0,1],使用公式:其中x'表示糖尿病参数属性的平均值,s表示糖尿病参数属性的标准偏差,Value即糖尿病参数原属性值value进行标准化计算得到的结果;所述的预测分析模块分为两部分,分别是K‑means聚类处理和LogisticRegression模型处理;使用K‑means聚类算法对剔除了分类标签结果的数据集进行一级处理,设定聚类数目为2,将结果与原始数据集进行对比,剔除聚类错误的数据项,以提供更加准确的数据集进入下一阶段的处理;使用LogisticRegression模型对上述处理过的数据集进行有监督的分类处理,分析结果可得预测准确性;预警分级模块针对糖尿病数据集中的参数,根据C4.5算法和K‑means算法基于现有数据分析糖尿病风险层级的规则并与糖尿病分级标准进行对比,以制定更加直接有效的预警分级标准;在此基础上,针对新数据的录入通过新的分级标准进行风险层级判断;所述的日常管理模块包含血糖记录和体征记录;血糖记录针对糖尿病用户,通过引入最新的血糖记录针记录血糖参数数据以更新糖尿病数据库;体征记录针对所有用户,管理的糖尿病参数包括心率、血压、血氧、身高体重和腰臀比数据;所有参数均以统一规范的数据格式进行存储并及时反馈至数据收集模块进行优化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710665605.6/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用