[发明专利]一种2型糖尿病风险状态判定方法无效

申请号：	201210431592.3	申请日：	2012-11-01
公开（公告）号：	CN102930163A	公开（公告）日：	2013-02-13
发明（设计）人：	罗森林;张铁梅;陈峰	申请（专利权）人：	北京理工大学
主分类号：	G06F19/00	分类号：	G06F19/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种2型糖尿病风险状态判定方法，属于生物医学技术领域。本方法使用EM聚类和C4.5分类提取影响2型糖尿病发病的关键属性，并将人群根据自身特点划分到不同聚类簇；根据关键属性提取结果和Logistic回归方法，结合代谢综合征和高危人群判定标准判定个人或人群风险状态。在获得影响2型糖尿病的关键属性的同时，考虑人群不同特点构造不同风险状态判定模型，提升模型的普适性和实用性，并满足实时处理及移动计算的需求；通过量化分析方法评价关键属性的作用程度，具有复杂度低、准确率高、划分风险状态详细的特点。
搜索关键词：	一种糖尿病风险状态判定方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种2型糖尿病风险状态判定方法，其特征在于：包括以下步骤：步骤1，将N个被评估对象作为样本集S，其中每个对象包含M个影响2型糖尿病发病的关键属性；将关键属性作为列，不同样本对应的属性值作为行，建立样本集S的矩阵表示；采用EM聚类方法对样本集S进行聚类，得到k个聚类簇；具体实现方法为：步骤1.1，将N个对象根据是否含有缺失数据分为完全数据集X和缺失数据集Y；步骤1.2，设置聚类簇个数k，以及样本集S的初始混合概率分布参数估计值θ_j表示第j个聚类簇的概率分布参数，π_j表示第i个样本n_i来自第j个聚类簇的可能性，j＝1,2，...,k，π₁+π₂+...+π_k＝1；k≤N，1≤i≤N；步骤1.3，将步骤1.2给定的初始混合概率分布参数估计值Θ⁰代入缺失数据集Y，获得y_cb的后验分布概率为：p(ycb|xab,Θ0)=πk0pycb(xab|θk0)Σk=1Mπk0pk(xab|θk0)]]>其中x_ab∈X，y_cb∈Y，a表示完全数据样本对象，b表示完全数据样本各属性对应的数据，c表示缺失数据样本对象，b=1,2,...,M；数据集Y的后验分布函数为：p(Y|X,Θ0)=Πb=1Mp(ycb|xab,Θ0);]]>步骤1.4，根据步骤1.3获得的后验分布函数，对完全数据的对数似然函数ln L(Θ|X，Y)求期望，得到M个期望值，用其代替缺失数据集Y中相应列数的各个缺失数据，得到新样本集Y＇；所述lnL(Θ|X,Y)=lnp(x,y|Θ)=Σb=1Mlnp(xab|ycb)p(ycb);]]>步骤1.5，根据步骤1.4计算获得的样本集Y＇以及完全数据集X，计算样本集S的最大似然参数Q(Θ,Θ⁰)：Q(Θ,Θ⁰)=∑ln(L(Θ|X，Y)p(Y|X,Θ⁰))步骤1.6，将Q(Θ,Θ⁰)极大化，得到Θ¹，满足Q(Θ¹，Θ⁰)=max Q(Θ，Θ⁰)，用Θ¹代替Θ⁰，代入步骤1.3；步骤1.7，执行步骤1.3至步骤1.6的迭代过程α次，直至||Q(Θ^α+1,Θ^α)-Q(Θ^α,Θ^α-1)||<ε，停止迭代；得到的Θ^α作为k个聚类簇的混合概率分布参数估计值Θ；步骤1.8，利用混合概率分布参数估计值Θ，分别计算各样本对象属于聚类簇j的后验条件概率密度值；按照样本与聚类簇的隶属概率最大的原则，把样本集S中的各个样本分入k个聚类簇；步骤2，对步骤1得到的每个聚类簇分别采用C4.5分类方法进行决策树训练，获得k个决策树；步骤3，针对每个属性，根据其在步骤2获得的k个决策树中出现的层数，以及在该层出现的次数和，计算该属性的层数系数；对于样本集S，第b列属性的层数系数L_b为：Lb=Σj=1kΣw=1λ+1(12wtw)Σw=1λ+1tw]]>其中t_w表示在第w层出现了t次；将层数系数作为衡量各属性影响2型糖尿病发病的作用程度，并选取L_b>δ的B个属性作为影响发病的主要属性集合U(U₁,U₂，...,U_B)，其中1<B＜M；步骤4，将样本对象属于类别P记为P_d=1，属于类别Q记为P_d=0，将P_d作为因变量，步骤3获得的主要属性集合U对应的所有数据U_vz作为自变量，v=1,2,...,(g+h)，z=1,2,...,B，分别对步骤1获得的各个聚类簇中的样本对象进行Logistic回归建模，获得各主要属性对应的回归系数β_z，构建k个Logistic回归模型；步骤5，根据步骤4获得的Logistic回归模型，计算各聚类簇中的样本对象属于类别P的概率，并将各个聚类簇中的样本对象按照年龄段和性别划分R组，计算每个聚类簇的各组样本对象的相对发病概率RR；通过ROC曲线获得人群相对发病概率阈值，然后比较个人RR值与阈值的大小，并结合代谢综合征判定方法，判定未患病的各样本对象的风险状态。将未患病样本对应的风险状态划分为四个等级：无风险、低风险、中风险和高风险；所述相对发病概率阈值为[灵敏度+(1-特异度)]最大的RR值；所述第v个样本对象的相对发病概率RR=样本v的患病概率/基线发病概率；其中患病概率为根据该样本对象对应的Logistic回归模型，计算得到的样本v属于类别P的概率；基线发病概率为将第r组中所有样本对象相应的关键属性集合U的数据均值带入相应Logistic回归模型计算得到的概率值；其中r=1，...,R，每个聚类簇获得R个基线发病概率值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210431592.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学，即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真，例如：概率模型或动态模型，遗传基因管理网络，蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的，例如：进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的，例如：结构排序，结构或功能关系，蛋白质折叠，结构域拓扑，用结构数据的药靶，涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的，例如：基因型–表型关联，不均衡连接，种群遗传学，结合位置鉴定，变异发生，基因型或染色体组的注释，蛋白质相互作用或蛋白质核酸的相互作用

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种2型糖尿病风险状态判定方法无效

专利文献下载