[发明专利]一种基于机器学习的2型糖尿病预测预警方法在审
申请号: | 201710665605.6 | 申请日: | 2017-08-07 |
公开(公告)号: | CN107403072A | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 杨胜齐;吴寒;丁梦;王冰笛 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 糖尿病 预测 预警 方法 | ||
技术领域
本发明属于机器学习预测分析与医疗健康技术领域,具体涉及一种基于机器学习的2型糖尿病预测预警方法。
背景技术
糖尿病是一种以高血糖为特征的慢性疾病,且具有明显的家族遗传特性,接近一半的糖尿病患者有家族遗传病史。国际糖尿病联盟在Diabetes Atlas(Seventh Edition)中的最新数据表明,2015年全世界范围内DM患病人群的数量将近4.15亿。根据近年的增长率预测到2040年,全球糖尿病患者将达到6.42亿,这意味着未来每十个成年人中间就有一个人患有糖尿病。这一惊人的数字毫无疑问需要引起高度重视。
近年来,中国已成世界糖尿病患者第一大国,目前患病人数已高达1.1亿人,且患者数量还在不断上升当中。然而我国糖尿病患者知晓率仅为30.1%,其中仅有25.8%的患者得到治疗,而在进行治疗的患者中,血糖得到良好控制的仅有39.7%,据此测算,糖尿病患者中,血糖得到控制的患者比例仅为3.08%。在城市和乡村,上述数据存在显著差异,且不同性别之间差异也较大,经济不发达地区的女性糖尿病的控制情况非常低。在这样的情况下,通过先进的技术手段做好糖尿病患病的前期预防和日常管理就显得格外重要。
随着人工智能机器学习等技术的快速发展,大量机器学习算法被运用在医疗健康的方方面面。机器学习是研究如何使用机器来模拟人类学习活动的学科。一种更为严格的定义是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。机器学习主要研究的是让机器从过去的经历中学习经验,对数据的不确定性进行建模,并在未来进行预测。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
糖尿病预测预警是机器学习算法的应用领域之一,主要在如下三个方面展开:1)重要糖尿病参数分析。通过主成分分析方法和关联算法对多种糖尿病数据集的基本属性值进行分析筛选,得出引发糖尿病的重要因素;2)预测模型分析。通过多种分类算法对糖尿病数据集进行有监督的预测分析来判断糖尿病风险参数在一定时间之后引发糖尿病的可能性,主要应用的算法有决策树算法、随机森林算法、神经网络算法以及逻辑回归算法等;3)预警分级分析。针对多种糖尿病数据集,通过无监督的聚类算法,优化现有糖尿病预警分级标准。
发明内容
本发明的目的是针对现有糖尿病预测方法准确性的不足,以及对潜在人群进行风险提示的欠缺,提供了一种基于K-means算法、Logistic Regression算法和C4.5算法结合应用的2型糖尿病预测预警方法。本方法对糖尿病参数进行持续的数据收集、数据分析、数据管理等工作,在此基础之上形成预测分析、预警分级和日常管理等功能。
为达到上述目的,本发明采用的技术方案为:
一种基于机器学习的2型糖尿病预测预警方法,该方法通过K-means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K-means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型。本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块,数据收集模块与数据预处理模块连接,数据预处理模块与预测分析模块连接,预测分析模块与预警分级模块连接,预警分级模块和日常管理模块连接。
本方法包括以下步骤:
(1)基于现有的健康大数据,获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等。首先对每一个实例以糖尿病和非糖尿病进行标记。
(2)对糖尿病参数数据库中的原始数据做数据预处理。预处理包括确定统一的数据项以及每一项的具体格式,具体格式为枚举型或数值型等,然后通过数据清洗和数据标准化提高原始数据的质量。
(3)使用K-means算法和Logistic Regression算法的双层预测分析模型分析处理过的数据集,对每个实例属于糖尿病或是非糖尿病进行预测分类。
(4)使用C4.5算法和K-means算法结合的分析模型结合现有高危人群划分标准对非糖尿病进行预警分级,提出无风险、低风险和高风险三类标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710665605.6/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用