[发明专利]一种利用糖尿病系统大数据预测糖尿病的装置有效
申请号: | 201510103017.4 | 申请日: | 2015-03-09 |
公开(公告)号: | CN104636631B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 董建成;顾春燕 | 申请(专利权)人: | 江苏中康软件有限责任公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 陈娟 |
地址: | 226019 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 糖尿病 大数据 贝叶斯模型 决策树模型 预测 决策树 构建 贝叶斯公式 可能性概率 输出变量 特征属性 信息增益 训练样本 剪枝 分枝 两层 概率 预防 | ||
本发明公开了一种利用糖尿病系统大数据预测糖尿病的装置,包括以下步骤:1)构建糖尿病决策树模型;2)根据训练样本S的信息增益率Gains(Xi)选择所述决策树模型的最佳分枝变量;3)从下向上进行决策树后剪枝;4)构建糖尿病朴素贝叶斯模型,并利用贝叶斯公式得,第r个节点上输出变量为C1的糖尿病可能性概率P(C1|y1·y2·y3·····ym);该方法设计了一种决策树与朴素贝叶斯模型相结合的两层模型方法,通过提取大数据中糖尿病的特征属性,从而预测糖尿病发生与否,并进一步计算其发生的概率,预防和预测相结合,且更加全面精确。
技术领域
本发明涉及一种概率计算方法,尤其是涉及一种利用糖尿病系统大数据预测糖尿病的装置。
背景技术
随着社会经济的发展,人口老龄化、生活方式等危险因素迅速增加,糖尿病患病率在世界范围内呈上升趋势。据世界卫生组织统计:1985年全世界有糖尿病患者3000万人,1995年为1.35亿人,2000年为1.77亿人,估计到2025年将达到3亿人;每年约有400万人死于和糖尿病相关的疾病,占世界死亡人数的9%。许多糖尿病患者不能被早期识别,并且糖尿病人群正趋于低龄化,对于糖尿病的防治成为了当下重要的技术问题。
现有的糖尿病防治技术主要分为两类:第一类是从大数据中分析出影响糖尿病发生的主要因素,从而来预防糖尿病;第二类是对糖尿病发生风险的预测。
第一类主要利用大数据作为样本,提取影响糖尿病发生的因素,主要是与生活习惯、饮食习惯方面相关的因素,让人们可以注意这些方面,从而来预防糖尿病的发生。该类方法仅仅是提供一个预防功能,且预防的因素也不够全面,同时缺少了重要的预测功能,为糖尿病的防治带来了困难。
第二类主要采用分类方法来预测糖尿病发生的风险,主要分为:高危、中危、低危,这样的分类方法区间广,较为模糊。并且,仅仅通过这些分类方法不能很好的筛选出糖尿病特征属性,导致预测结果误差变大。
从上述两类现有的技术可以看出,当下的糖尿病防治技术还不够成熟,影响糖尿病的因素较为复杂,单纯的大数据分析方法以及单纯的预测方法都是存在较大缺陷的,一方面是预防不够全面,另一方面是预测不够精确。因此,设计一种预防和预测相结合即更加全面精确的技术方法对糖尿病的防治具有深远的意义。
发明内容
本发明目的是:提供一种预防和预测相结合且更加全面精确的糖尿病系统大数据在预测糖尿病方面的应用,设计了一种决策树与朴素贝叶斯模型相结合的两层模型方法,通过提取大数据中糖尿病的特征属性,从而使用该大数据预测糖尿病发生与否,并进一步计算其发生的概率。
本发明的技术方案是:一种利用糖尿病系统大数据预测糖尿病的装置,其特征在于,包括以下步骤:
1)构建糖尿病决策树模型,提取70%的糖尿病系统大数据作为所述决策树模型的训练样本S,根据该训练样本S获取糖尿病特征属性并将其作为所述决策树模型的输入变量Xi,每个输入变量Xi都有其对应的分类xij,其中i=1,2,…,n,j的值由其对应的Xi分类值确定;
2)根据所述训练样本S的信息增益率Gains(Xi)选择所述决策树模型的最佳分枝变量;其中,信息增益率Gains(Xi)的计算公式如下:
Gain(Xi)=Info(S)-Info(Xi),(i=1,2,…,n)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏中康软件有限责任公司,未经江苏中康软件有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510103017.4/2.html,转载请声明来源钻瓜专利网。