[发明专利]一种2型糖尿病风险状态判定方法无效

专利信息
申请号: 201210431592.3 申请日: 2012-11-01
公开(公告)号: CN102930163A 公开(公告)日: 2013-02-13
发明(设计)人: 罗森林;张铁梅;陈峰 申请(专利权)人: 北京理工大学
主分类号: G06F19/00 分类号: G06F19/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种2型糖尿病风险状态判定方法,属于生物医学技术领域。本方法使用EM聚类和C4.5分类提取影响2型糖尿病发病的关键属性,并将人群根据自身特点划分到不同聚类簇;根据关键属性提取结果和Logistic回归方法,结合代谢综合征和高危人群判定标准判定个人或人群风险状态。在获得影响2型糖尿病的关键属性的同时,考虑人群不同特点构造不同风险状态判定模型,提升模型的普适性和实用性,并满足实时处理及移动计算的需求;通过量化分析方法评价关键属性的作用程度,具有复杂度低、准确率高、划分风险状态详细的特点。
搜索关键词: 一种 糖尿病 风险 状态 判定 方法
【主权项】:
1.一种2型糖尿病风险状态判定方法,其特征在于:包括以下步骤:步骤1,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示;采用EM聚类方法对样本集S进行聚类,得到k个聚类簇;具体实现方法为:步骤1.1,将N个对象根据是否含有缺失数据分为完全数据集X和缺失数据集Y;步骤1.2,设置聚类簇个数k,以及样本集S的初始混合概率分布参数估计值θj表示第j个聚类簇的概率分布参数,πj表示第i个样本ni来自第j个聚类簇的可能性,j=1,2,...,k,π12+...+πk=1;k≤N,1≤i≤N;步骤1.3,将步骤1.2给定的初始混合概率分布参数估计值Θ0代入缺失数据集Y,获得ycb的后验分布概率为:p(ycb|xab,Θ0)=πk0pycb(xab|θk0)Σk=1Mπk0pk(xab|θk0)]]>其中xab∈X,ycb∈Y,a表示完全数据样本对象,b表示完全数据样本各属性对应的数据,c表示缺失数据样本对象,b=1,2,...,M;数据集Y的后验分布函数为:p(Y|X,Θ0)=Πb=1Mp(ycb|xab,Θ0);]]>步骤1.4,根据步骤1.3获得的后验分布函数,对完全数据的对数似然函数ln L(Θ|X,Y)求期望,得到M个期望值,用其代替缺失数据集Y中相应列数的各个缺失数据,得到新样本集Y';所述lnL(Θ|X,Y)=lnp(x,y|Θ)=Σb=1Mlnp(xab|ycb)p(ycb);]]>步骤1.5,根据步骤1.4计算获得的样本集Y'以及完全数据集X,计算样本集S的最大似然参数Q(Θ,Θ0):Q(Θ,Θ0)=∑ln(L(Θ|X,Y)p(Y|X,Θ0))步骤1.6,将Q(Θ,Θ0)极大化,得到Θ1,满足Q(Θ1,Θ0)=max Q(Θ,Θ0),用Θ1代替Θ0,代入步骤1.3;步骤1.7,执行步骤1.3至步骤1.6的迭代过程α次,直至||Q(Θα+1α)-Q(Θαα-1)||<ε,停止迭代;得到的Θα作为k个聚类簇的混合概率分布参数估计值Θ;步骤1.8,利用混合概率分布参数估计值Θ,分别计算各样本对象属于聚类簇j的后验条件概率密度值;按照样本与聚类簇的隶属概率最大的原则,把样本集S中的各个样本分入k个聚类簇;步骤2,对步骤1得到的每个聚类簇分别采用C4.5分类方法进行决策树训练,获得k个决策树;步骤3,针对每个属性,根据其在步骤2获得的k个决策树中出现的层数,以及在该层出现的次数和,计算该属性的层数系数;对于样本集S,第b列属性的层数系数Lb为:Lb=Σj=1kΣw=1λ+1(12wtw)Σw=1λ+1tw]]>其中tw表示在第w层出现了t次;将层数系数作为衡量各属性影响2型糖尿病发病的作用程度,并选取Lb>δ的B个属性作为影响发病的主要属性集合U(U1,U2,...,UB),其中1<B<M;步骤4,将样本对象属于类别P记为Pd=1,属于类别Q记为Pd=0,将Pd作为因变量,步骤3获得的主要属性集合U对应的所有数据Uvz作为自变量,v=1,2,...,(g+h),z=1,2,...,B,分别对步骤1获得的各个聚类簇中的样本对象进行Logistic回归建模,获得各主要属性对应的回归系数βz,构建k个Logistic回归模型;步骤5,根据步骤4获得的Logistic回归模型,计算各聚类簇中的样本对象属于类别P的概率,并将各个聚类簇中的样本对象按照年龄段和性别划分R组,计算每个聚类簇的各组样本对象的相对发病概率RR;通过ROC曲线获得人群相对发病概率阈值,然后比较个人RR值与阈值的大小,并结合代谢综合征判定方法,判定未患病的各样本对象的风险状态。将未患病样本对应的风险状态划分为四个等级:无风险、低风险、中风险和高风险;所述相对发病概率阈值为[灵敏度+(1-特异度)]最大的RR值;所述第v个样本对象的相对发病概率RR=样本v的患病概率/基线发病概率;其中患病概率为根据该样本对象对应的Logistic回归模型,计算得到的样本v属于类别P的概率;基线发病概率为将第r组中所有样本对象相应的关键属性集合U的数据均值带入相应Logistic回归模型计算得到的概率值;其中r=1,...,R,每个聚类簇获得R个基线发病概率值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210431592.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top