[发明专利]一种2型糖尿病风险状态判定方法无效
申请号: | 201210431592.3 | 申请日: | 2012-11-01 |
公开(公告)号: | CN102930163A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 罗森林;张铁梅;陈峰 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 糖尿病 风险 状态 判定 方法 | ||
1.一种2型糖尿病风险状态判定方法,其特征在于:包括以下步骤:
步骤1,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示;采用EM聚类方法对样本集S进行聚类,得到k个聚类簇;具体实现方法为:
步骤1.1,将N个对象根据是否含有缺失数据分为完全数据集X和缺失数据集Y;
步骤1.2,设置聚类簇个数k,以及样本集S的初始混合概率分布参数估计值θj表示第j个聚类簇的概率分布参数,πj表示第i个样本ni来自第j个聚类簇的可能性,j=1,2,...,k,π1+π2+...+πk=1;k≤N,1≤i≤N;
步骤1.3,将步骤1.2给定的初始混合概率分布参数估计值Θ0代入缺失数据集Y,获得ycb的后验分布概率为:
其中xab∈X,ycb∈Y,a表示完全数据样本对象,b表示完全数据样本各属性对应的数据,c表示缺失数据样本对象,b=1,2,...,M;
数据集Y的后验分布函数为:
步骤1.4,根据步骤1.3获得的后验分布函数,对完全数据的对数似然函数ln L(Θ|X,Y)求期望,得到M个期望值,用其代替缺失数据集Y中相应列数的各个缺失数据,得到新样本集Y';
所述
步骤1.5,根据步骤1.4计算获得的样本集Y'以及完全数据集X,计算样本集S的最大似然参数Q(Θ,Θ0):
Q(Θ,Θ0)=∑ln(L(Θ|X,Y)p(Y|X,Θ0))
步骤1.6,将Q(Θ,Θ0)极大化,得到Θ1,满足Q(Θ1,Θ0)=max Q(Θ,Θ0),用Θ1代替Θ0,代入步骤1.3;
步骤1.7,执行步骤1.3至步骤1.6的迭代过程α次,直至||Q(Θα+1,Θα)-Q(Θα,Θα-1)||<ε,停止迭代;得到的Θα作为k个聚类簇的混合概率分布参数估计值Θ;
步骤1.8,利用混合概率分布参数估计值Θ,分别计算各样本对象属于聚类簇j的后验条件概率密度值;按照样本与聚类簇的隶属概率最大的原则,把样本集S中的各个样本分入k个聚类簇;
步骤2,对步骤1得到的每个聚类簇分别采用C4.5分类方法进行决策树训练,获得k个决策树;
步骤3,针对每个属性,根据其在步骤2获得的k个决策树中出现的层数,以及在该层出现的次数和,计算该属性的层数系数;
对于样本集S,第b列属性的层数系数Lb为:
其中tw表示在第w层出现了t次;
将层数系数作为衡量各属性影响2型糖尿病发病的作用程度,并选取Lb>δ的B个属性作为影响发病的主要属性集合U(U1,U2,...,UB),其中1<B<M;
步骤4,将样本对象属于类别P记为Pd=1,属于类别Q记为Pd=0,将Pd作为因变量,步骤3获得的主要属性集合U对应的所有数据Uvz作为自变量,v=1,2,...,(g+h),z=1,2,...,B,分别对步骤1获得的各个聚类簇中的样本对象进行Logistic回归建模,获得各主要属性对应的回归系数βz,构建k个Logistic回归模型;
步骤5,根据步骤4获得的Logistic回归模型,计算各聚类簇中的样本对象属于类别P的概率,并将各个聚类簇中的样本对象按照年龄段和性别划分R组,计算每个聚类簇的各组样本对象的相对发病概率RR;通过ROC曲线获得人群相对发病概率阈值,然后比较个人RR值与阈值的大小,并结合代谢综合征判定方法,判定未患病的各样本对象的风险状态。将未患病样本对应的风险状态划分为四个等级:无风险、低风险、中风险和高风险;
所述相对发病概率阈值为[灵敏度+(1-特异度)]最大的RR值;
所述第v个样本对象的相对发病概率RR=样本v的患病概率/基线发病概率;其中患病概率为根据该样本对象对应的Logistic回归模型,计算得到的样本v属于类别P的概率;基线发病概率为将第r组中所有样本对象相应的关键属性集合U的数据均值带入相应Logistic回归模型计算得到的概率值;其中r=1,...,R,每个聚类簇获得R个基线发病概率值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210431592.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗慢性盆腔炎的汤剂
- 下一篇:具有电驱动系统的自行车
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用