[发明专利]一种利用糖尿病系统大数据预测糖尿病的装置有效

申请号：	201510103017.4	申请日：	2015-03-09
公开（公告）号：	CN104636631B	公开（公告）日：	2018-06-05
发明（设计）人：	董建成;顾春燕	申请（专利权）人：	江苏中康软件有限责任公司
主分类号：	G16H50/20	分类号：	G16H50/20
代理公司：	北京科家知识产权代理事务所(普通合伙) 11427	代理人：	陈娟
地址：	226019 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	糖尿病大数据贝叶斯模型决策树模型预测决策树构建贝叶斯公式可能性概率输出变量特征属性信息增益训练样本剪枝分枝两层概率预防
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种利用糖尿病系统大数据预测糖尿病的装置，其特征在于，包括以下步骤：

1)构建糖尿病决策树模型，提取70％的糖尿病系统大数据作为所述决策树模型的训练样本S，根据该训练样本S获取糖尿病特征属性并将其作为所述决策树模型的输入变量X_i，每个输入变量X_i都有其对应的分类x_ij，其中i＝1，2，…，n，j的值由其对应的X_i分类值确定；

2)根据所述训练样本S的信息增益率Gains(X_i)选择所述决策树模型的最佳分枝变量；其中，信息增益率Gains(X_i)的计算公式如下：

Gain(X_i)＝Info(S)-Info(X_i)，(i＝1，2，…，n)

Gains(X_i)＝Gain(X_i)/Info(X_i)，(i＝1，2，…，n)

其中，|S|为训练样本S的样本总数；

freq(C_k，S)为训练样本S中属于C_k类糖尿病诊断结果的样本数量；

freq(C_k，x_ij)为训练样本S中包含输入变量X_i分类值为x_ij的属于C_k类糖尿病诊断结果的样本数量；

|X_i|为训练样本S中包含输入变量X_i的样本数量；

|x_ij|为训练样本S中包含输入变量X_i分类值为x_ij的样本数量；

Info(S)为训练样本S的信息熵；Info(X_i)为糖尿病特征属性X_i在训练样本S中的条件熵；Info(x_ij)为糖尿病特征属性分类x_ij在训练样本S中的条件熵；Gain(X_i)为糖尿病特征属性X_i的信息增益；

3)提取剩余30％的糖尿病系统大数据并从下向上进行决策树后剪枝，得到糖尿病诊断结果输出变量C_k，其中k＝1，2，3，C₁、C₂、C₃分别对应为可能、否、是糖尿病诊断结果的决策树输出变量；

4)构建糖尿病朴素贝叶斯模型，从糖尿病系统大数据中提取包含上述决策树模型筛选后的特征属性数据并重新构成训练样本D，提取上述决策树模型中所有输出变量为C₁的节点，自上向下获取每个节点所经过的特征属性分类x_ij，并定义第r个节点所拥有的特征属性集合Y_r为：Y_r＝{y₁，y₂，…，y_m}，其中m是对应节点所拥有的特征属性个数，再利用贝叶斯公式得，第r个节点上输出变量为C₁的糖尿病可能性概率P(C₁|y₁·y₂·y₃·…·y_m)。

2.根据权利要求1所述的利用糖尿病系统大数据预测糖尿病的装置，其特征在于，步骤3)中决策树后剪枝的具体方法如下：

采用置信区间法，给定置信水平1-α，假设第r个节点上的A_r个诊断预测中有B_r个是错误的，则错误率为且通过正态分布表得到第r个节点上的糖尿病诊断结果的误差μ_r满足：

令μ_r的置信区间为：

假设父节点上的诊断结果的误差为μ，每个子节点占该分支样本量的比例为θ_r，对父节点拥有的所有子节点的诊断结果的误差进行加权计算：

当所有的μ_r都取最小值时，如果则将该父节点的所有子节点都修剪去除。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏中康软件有限责任公司，未经江苏中康软件有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510103017.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种事件通知方法、监听器的处理方法及装置
下一篇：一种邻区配置核查方法及装置

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种利用糖尿病系统大数据预测糖尿病的装置有效

专利文献下载