[发明专利]一种利用糖尿病系统大数据预测糖尿病的装置有效
申请号: | 201510103017.4 | 申请日: | 2015-03-09 |
公开(公告)号: | CN104636631B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 董建成;顾春燕 | 申请(专利权)人: | 江苏中康软件有限责任公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 陈娟 |
地址: | 226019 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 糖尿病 大数据 贝叶斯模型 决策树模型 预测 决策树 构建 贝叶斯公式 可能性概率 输出变量 特征属性 信息增益 训练样本 剪枝 分枝 两层 概率 预防 | ||
1.一种利用糖尿病系统大数据预测糖尿病的装置,其特征在于,包括以下步骤:
1)构建糖尿病决策树模型,提取70%的糖尿病系统大数据作为所述决策树模型的训练样本S,根据该训练样本S获取糖尿病特征属性并将其作为所述决策树模型的输入变量Xi,每个输入变量Xi都有其对应的分类xij,其中i=1,2,…,n,j的值由其对应的Xi分类值确定;
2)根据所述训练样本S的信息增益率Gains(Xi)选择所述决策树模型的最佳分枝变量;其中,信息增益率Gains(Xi)的计算公式如下:
Gain(Xi)=Info(S)-Info(Xi),(i=1,2,…,n)
Gains(Xi)=Gain(Xi)/Info(Xi),(i=1,2,…,n)
其中,|S|为训练样本S的样本总数;
freq(Ck,S)为训练样本S中属于Ck类糖尿病诊断结果的样本数量;
freq(Ck,xij)为训练样本S中包含输入变量Xi分类值为xij的属于Ck类糖尿病诊断结果的样本数量;
|Xi|为训练样本S中包含输入变量Xi的样本数量;
|xij|为训练样本S中包含输入变量Xi分类值为xij的样本数量;
Info(S)为训练样本S的信息熵;Info(Xi)为糖尿病特征属性Xi在训练样本S中的条件熵;Info(xij)为糖尿病特征属性分类xij在训练样本S中的条件熵;Gain(Xi)为糖尿病特征属性Xi的信息增益;
3)提取剩余30%的糖尿病系统大数据并从下向上进行决策树后剪枝,得到糖尿病诊断结果输出变量Ck,其中k=1,2,3,C1、C2、C3分别对应为可能、否、是糖尿病诊断结果的决策树输出变量;
4)构建糖尿病朴素贝叶斯模型,从糖尿病系统大数据中提取包含上述决策树模型筛选后的特征属性数据并重新构成训练样本D,提取上述决策树模型中所有输出变量为C1的节点,自上向下获取每个节点所经过的特征属性分类xij,并定义第r个节点所拥有的特征属性集合Yr为:Yr={y1,y2,…,ym},其中m是对应节点所拥有的特征属性个数,再利用贝叶斯公式得,第r个节点上输出变量为C1的糖尿病可能性概率P(C1|y1·y2·y3·…·ym)。
2.根据权利要求1所述的利用糖尿病系统大数据预测糖尿病的装置,其特征在于,步骤3)中决策树后剪枝的具体方法如下:
采用置信区间法,给定置信水平1-α,假设第r个节点上的Ar个诊断预测中有Br个是错误的,则错误率为且通过正态分布表得到第r个节点上的糖尿病诊断结果的误差μr满足:
令μr的置信区间为:
假设父节点上的诊断结果的误差为μ,每个子节点占该分支样本量的比例为θr,对父节点拥有的所有子节点的诊断结果的误差进行加权计算:
当所有的μr都取最小值时,如果则将该父节点的所有子节点都修剪去除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏中康软件有限责任公司,未经江苏中康软件有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510103017.4/1.html,转载请声明来源钻瓜专利网。