[发明专利]一种2型糖尿病风险状态判定方法无效
申请号: | 201210431592.3 | 申请日: | 2012-11-01 |
公开(公告)号: | CN102930163A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 罗森林;张铁梅;陈峰 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种2型糖尿病风险状态判定方法,属于生物医学技术领域。本方法使用EM聚类和C4.5分类提取影响2型糖尿病发病的关键属性,并将人群根据自身特点划分到不同聚类簇;根据关键属性提取结果和Logistic回归方法,结合代谢综合征和高危人群判定标准判定个人或人群风险状态。在获得影响2型糖尿病的关键属性的同时,考虑人群不同特点构造不同风险状态判定模型,提升模型的普适性和实用性,并满足实时处理及移动计算的需求;通过量化分析方法评价关键属性的作用程度,具有复杂度低、准确率高、划分风险状态详细的特点。 | ||
搜索关键词: | 一种 糖尿病 风险 状态 判定 方法 | ||
【主权项】:
1.一种2型糖尿病风险状态判定方法,其特征在于:包括以下步骤:步骤1,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示;采用EM聚类方法对样本集S进行聚类,得到k个聚类簇;具体实现方法为:步骤1.1,将N个对象根据是否含有缺失数据分为完全数据集X和缺失数据集Y;步骤1.2,设置聚类簇个数k,以及样本集S的初始混合概率分布参数估计值
θj表示第j个聚类簇的概率分布参数,πj表示第i个样本ni来自第j个聚类簇的可能性,j=1,2,...,k,π1+π2+...+πk=1;k≤N,1≤i≤N;步骤1.3,将步骤1.2给定的初始混合概率分布参数估计值Θ0代入缺失数据集Y,获得ycb的后验分布概率为:p ( y cb | x ab , Θ 0 ) = π k 0 p y cb ( x ab | θ k 0 ) Σ k = 1 M π k 0 p k ( x ab | θ k 0 ) ]]> 其中xab∈X,ycb∈Y,a表示完全数据样本对象,b表示完全数据样本各属性对应的数据,c表示缺失数据样本对象,b=1,2,...,M;数据集Y的后验分布函数为:p ( Y | X , Θ 0 ) = Π b = 1 M p ( y cb | x ab , Θ 0 ) ; ]]> 步骤1.4,根据步骤1.3获得的后验分布函数,对完全数据的对数似然函数ln L(Θ|X,Y)求期望,得到M个期望值,用其代替缺失数据集Y中相应列数的各个缺失数据,得到新样本集Y';所述ln L ( Θ | X , Y ) = ln p ( x , y | Θ ) = Σ b = 1 M ln p ( x ab | y cb ) p ( y cb ) ; ]]> 步骤1.5,根据步骤1.4计算获得的样本集Y'以及完全数据集X,计算样本集S的最大似然参数Q(Θ,Θ0):Q(Θ,Θ0)=∑ln(L(Θ|X,Y)p(Y|X,Θ0))步骤1.6,将Q(Θ,Θ0)极大化,得到Θ1,满足Q(Θ1,Θ0)=max Q(Θ,Θ0),用Θ1代替Θ0,代入步骤1.3;步骤1.7,执行步骤1.3至步骤1.6的迭代过程α次,直至||Q(Θα+1,Θα)-Q(Θα,Θα-1)||<ε,停止迭代;得到的Θα作为k个聚类簇的混合概率分布参数估计值Θ;步骤1.8,利用混合概率分布参数估计值Θ,分别计算各样本对象属于聚类簇j的后验条件概率密度值;按照样本与聚类簇的隶属概率最大的原则,把样本集S中的各个样本分入k个聚类簇;步骤2,对步骤1得到的每个聚类簇分别采用C4.5分类方法进行决策树训练,获得k个决策树;步骤3,针对每个属性,根据其在步骤2获得的k个决策树中出现的层数,以及在该层出现的次数和,计算该属性的层数系数;对于样本集S,第b列属性的层数系数Lb为:L b = Σ j = 1 k Σ w = 1 λ + 1 ( 1 2 w t w ) Σ w = 1 λ + 1 t w ]]> 其中tw表示在第w层出现了t次;将层数系数作为衡量各属性影响2型糖尿病发病的作用程度,并选取Lb>δ的B个属性作为影响发病的主要属性集合U(U1,U2,...,UB),其中1<B<M;步骤4,将样本对象属于类别P记为Pd=1,属于类别Q记为Pd=0,将Pd作为因变量,步骤3获得的主要属性集合U对应的所有数据Uvz作为自变量,v=1,2,...,(g+h),z=1,2,...,B,分别对步骤1获得的各个聚类簇中的样本对象进行Logistic回归建模,获得各主要属性对应的回归系数βz,构建k个Logistic回归模型;步骤5,根据步骤4获得的Logistic回归模型,计算各聚类簇中的样本对象属于类别P的概率,并将各个聚类簇中的样本对象按照年龄段和性别划分R组,计算每个聚类簇的各组样本对象的相对发病概率RR;通过ROC曲线获得人群相对发病概率阈值,然后比较个人RR值与阈值的大小,并结合代谢综合征判定方法,判定未患病的各样本对象的风险状态。将未患病样本对应的风险状态划分为四个等级:无风险、低风险、中风险和高风险;所述相对发病概率阈值为[灵敏度+(1-特异度)]最大的RR值;所述第v个样本对象的相对发病概率RR=样本v的患病概率/基线发病概率;其中患病概率为根据该样本对象对应的Logistic回归模型,计算得到的样本v属于类别P的概率;基线发病概率为将第r组中所有样本对象相应的关键属性集合U的数据均值带入相应Logistic回归模型计算得到的概率值;其中r=1,...,R,每个聚类簇获得R个基线发病概率值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210431592.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗慢性盆腔炎的汤剂
- 下一篇:具有电驱动系统的自行车
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用