[发明专利]一种利用糖尿病系统大数据预测糖尿病的装置有效
申请号: | 201510103017.4 | 申请日: | 2015-03-09 |
公开(公告)号: | CN104636631B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 董建成;顾春燕 | 申请(专利权)人: | 江苏中康软件有限责任公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 陈娟 |
地址: | 226019 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种利用糖尿病系统大数据预测糖尿病的装置,包括以下步骤:1)构建糖尿病决策树模型;2)根据训练样本S的信息增益率Gains(Xi)选择所述决策树模型的最佳分枝变量;3)从下向上进行决策树后剪枝;4)构建糖尿病朴素贝叶斯模型,并利用贝叶斯公式得,第r个节点上输出变量为C1的糖尿病可能性概率P(C1|y1·y2·y3·····ym);该方法设计了一种决策树与朴素贝叶斯模型相结合的两层模型方法,通过提取大数据中糖尿病的特征属性,从而预测糖尿病发生与否,并进一步计算其发生的概率,预防和预测相结合,且更加全面精确。 | ||
搜索关键词: | 糖尿病 大数据 贝叶斯模型 决策树模型 预测 决策树 构建 贝叶斯公式 可能性概率 输出变量 特征属性 信息增益 训练样本 剪枝 分枝 两层 概率 预防 | ||
【主权项】:
一种利用糖尿病系统大数据预测糖尿病的装置,其特征在于,包括以下步骤:1)构建糖尿病决策树模型,提取70%的糖尿病系统大数据作为所述决策树模型的训练样本S,根据该训练样本S获取糖尿病特征属性并将其作为所述决策树模型的输入变量Xi,每个输入变量Xi都有其对应的分类xij,其中i=1,2,…,n,j的值由其对应的Xi分类值确定;2)根据所述训练样本S的信息增益率Gains(Xi)选择所述决策树模型的最佳分枝变量;其中,信息增益率Gains(Xi)的计算公式如下:Gain(Xi)=Info(S)‑Info(Xi),(i=1,2,…,n)Gains(Xi)=Gain(Xi)/Info(Xi),(i=1,2,…,n)其中,|S|为训练样本S的样本总数;freq(Ck,S)为训练样本S中属于Ck类糖尿病诊断结果的样本数量;freq(Ck,xij)为训练样本S中包含输入变量Xi分类值为xij的属于Ck类糖尿病诊断结果的样本数量;|Xi|为训练样本S中包含输入变量Xi的样本数量;|xij|为训练样本S中包含输入变量Xi分类值为xij的样本数量;Info(S)为训练样本S的信息熵;Info(Xi)为糖尿病特征属性Xi在训练样本S中的条件熵;Info(xij)为糖尿病特征属性分类xij在训练样本S中的条件熵;Gain(Xi)为糖尿病特征属性Xi的信息增益;3)提取剩余30%的糖尿病系统大数据并从下向上进行决策树后剪枝,得到糖尿病诊断结果输出变量Ck,其中k=1,2,3,C1、C2、C3分别对应为可能、否、是糖尿病诊断结果的决策树输出变量;4)构建糖尿病朴素贝叶斯模型,从糖尿病系统大数据中提取包含上述决策树模型筛选后的特征属性数据并重新构成训练样本D,提取上述决策树模型中所有输出变量为C1的节点,自上向下获取每个节点所经过的特征属性分类xij,并定义第r个节点所拥有的特征属性集合Yr为:Yr={y1,y2,…,ym},其中m是对应节点所拥有的特征属性个数,再利用贝叶斯公式得,第r个节点上输出变量为C1的糖尿病可能性概率P(C1|y1·y2·y3·…·ym)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏中康软件有限责任公司,未经江苏中康软件有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510103017.4/,转载请声明来源钻瓜专利网。