[发明专利]用于疾病亚型问题的基于网络的聚类方法在审

专利信息
申请号: 201510532877.X 申请日: 2015-08-27
公开(公告)号: CN105160208A 公开(公告)日: 2015-12-16
发明(设计)人: 孔德兴;方红晟 申请(专利权)人: 杭州奥视图像技术有限公司
主分类号: G06F19/24 分类号: G06F19/24
代理公司: 杭州中成专利事务所有限公司 33212 代理人: 周世骏
地址: 310023 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及逆向研究疾病亚型领域,旨在提供用于疾病亚型问题的基于网络的聚类方法。该用于疾病亚型问题的基于网络的聚类方法包括过程:获得O-G矩阵以及基因调控网络;选取适用于具体问题的基于网络的距离定义,构建距离矩阵;运用k-medoids算法对O-G矩阵进行聚类分析,聚类时距离的选择用基于网络的距离。本发明对于特定的基因网络,将有更好的组间相似性,能更有效地还原三种亚型;当有大量的基因需要测定其表达数据时,本发明通过优先精确测量信息基因的表达数据,不会大大地削弱对于疾病亚型的鉴定效果。
搜索关键词: 用于 疾病 问题 基于 网络 方法
【主权项】:
用于疾病亚型问题的基于网络的聚类方法,其特征在于,具体包括下述过程:(1)获得O‑G矩阵以及基因调控网络;(2)选取适用于具体问题的基于网络的距离定义,构建距离矩阵;(3)运用k‑medoids算法对O‑G矩阵进行聚类分析;聚类时距离的选择用基于网络的距离;(4)得出最终关于疾病亚型的分类;所述过程(1)具体包括下述步骤:步骤A:根据基因调控网络的特性,构建随机的有向图来代表基因调控网络G(V,E);其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;步骤B:根据产生的基因调控网络G(V,E),对每个基因i建立激活函数fi(·),具体建立方式为:对于任意的基因i∈V,i=1,2,K,n,我们从G(V,E)中找出所有与i相邻且以i为有向边终点的点,构成影响因子集合{q1,q2,K,qsn};其中,q1表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,q2表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,qsn表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,n表示基因调控网络中基因的数量;确定解离常数kij,且kij从定义在[0.01,1]区间上的均匀分布中选取;确定希尔系数nij,且nij服从[1,10]区间中的高斯分布函数确定相对活性αi,且αi从定义在[0,1]区间上的均匀分布上采样;步骤C:确定无噪声动态基因调控模型,即确定公式(2.1)的各个参数;<mrow><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><msubsup><mi>F</mi><mi>i</mi><mrow><mi>m</mi><mi>R</mi><mi>N</mi><mi>A</mi></mrow></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>dx</mi><mi>i</mi></msub></mrow><mrow><mi>d</mi><mi>t</mi></mrow></mfrac><mo>=</mo><msub><mi>m</mi><mi>i</mi></msub><mo>&CenterDot;</mo><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>&lambda;</mi><mi>i</mi><mrow><mi>R</mi><mi>N</mi><mi>A</mi></mrow></msubsup><mo>&CenterDot;</mo><msub><mi>x</mi><mi>i</mi></msub></mrow></mtd></mtr><mtr><mtd><mrow><msubsup><mi>F</mi><mi>i</mi><mrow><mi>Pr</mi><mi>o</mi><mi>t</mi></mrow></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>dy</mi><mi>i</mi></msub></mrow><mrow><mi>d</mi><mi>t</mi></mrow></mfrac><mo>=</mo><msub><mi>r</mi><mi>i</mi></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><msubsup><mi>&lambda;</mi><mi>i</mi><mrow><mi>Pr</mi><mi>o</mi><mi>t</mi></mrow></msubsup><mo>&CenterDot;</mo><msub><mi>y</mi><mi>i</mi></msub></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2.1</mn><mo>)</mo></mrow></mrow>式(2.1)中,xi表示基因i的浓度;yi表示蛋白质i的浓度;FimRNA表示mRNAi的浓度变化率;FiProt表示蛋白质i的浓度变化率;mi表示基因i的最大转录速率;ri表示mRNAi的翻译速率;表示mRNAi的降解速率;表示蛋白质i的降解速率;fi(·)表示基因i的激活函数;确定公式(2.1)中各个参数的具体方式为:mRNA的半衰期TiRNA以及蛋白质的半衰期TiProt从定义在[5,50]区间上的高斯分布上采样;根据公式(2.9),获得mRNA以及蛋白质的降解速率,最大转录速率mi以及翻译速率ri服从[0.01,0.011]区间上的均匀分布;<mrow><mfenced open='{' close=''><mtable><mtr><mtd><msup><msub><mi>&lambda;</mi><mi>i</mi></msub><mi>RNA</mi></msup><mo>=</mo><mfrac><mrow><mi>ln</mi><mn>2</mn></mrow><msup><msub><mi>T</mi><mi>i</mi></msub><mi>RNA</mi></msup></mfrac></mtd></mtr><mtr><mtd><msup><msub><mi>&lambda;</mi><mi>i</mi></msub><mi>Rrot</mi></msup><mo>=</mo><mfrac><mrow><mi>ln</mi><mn>2</mn></mrow><msup><msub><mi>T</mi><mi>i</mi></msub><mi>Rrot</mi></msup></mfrac></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2.9</mn><mo>)</mo></mrow></mrow>式(2.9)中,表示mRNAi的降解速率;表示蛋白质i的降解速率;mRNA的半衰期TiRNA以及蛋白质的半衰期TiProt;步骤D:在获得了基因调控网络以及无噪声动态基因调控模型之后,选定mRNA浓度x(x1,x2,K,xn)以及蛋白质浓度y(y1,y2,K,yn)的初始值,然后求解公式(2.1),得到最终的基因表达数据;所述过程(2)具体是指:根据过程(1)所获得的基因网络的拓扑关系G(V,E),定义三种基于网络的距离,用于比较x1(x11,x12,K,x1n)与x2(x21,x22,K,x2n)的差别;其中x1(x11,x12,K,x1n)、x2(x21,x22,K,x2n)分别表示两个被试者P1和P2的mRNA浓度;令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;令每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;记Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;其中,基于网络的Jaccard距离定义为:<mrow><mi>E</mi><mi>J</mi><mo>=</mo><mfrac><mrow><mn>2</mn><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>T</mi><mi>i</mi></msub><mrow><mo>|</mo><mrow><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub></mrow><mo>|</mo></mrow></mrow><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>T</mi><mi>i</mi></msub><mrow><mo>(</mo><mrow><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>+</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub></mrow><mo>)</mo></mrow><mo>+</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>T</mi><mi>i</mi></msub><mrow><mo>|</mo><mrow><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub></mrow><mo>|</mo></mrow></mrow></mfrac></mrow>   公式(3.10);其中,令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;n表示基因调控网络中基因的数量;基于网络的Euclidean距离:<mrow><mi>E</mi><mi>E</mi><mo>=</mo><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&delta;</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>1</mn><mi>j</mi></mrow></msub><mo>-</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>j</mi></mrow></msub><mo>)</mo></mrow></mrow></msqrt></mrow>   公式(3.11);式中,其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;x1j指被试者P1的mRNAj浓度;x2j指被试者P2的mRNAj浓度;n表示基因调控网络中基因的数量;基于网络的Pearson距离:<mrow><mi>E</mi><mi>P</mi><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>I</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow><mrow><msqrt><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>I</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><msqrt><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>I</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow></mfrac></mrow>   公式(3.12);其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNA1浓度;n表示基因调控网络中基因的数量;Ii表示节点i的入度;这里的xi1指被试者Pi的mRNA1浓度;这里的xi2指被试者Pi的mRNA2浓度;所述过程(3)具体是指:将过程(2)中定义的距离引入聚类分析中,使用k‑medoids聚类分析方法,对过程(1)所获得的基因表达数据进行聚类;假设有n个被试者,我们将n个被试者划分为k类,K‑medoids聚类算法是,基于网络的Pearson距离具体的算法具体方法如下:(a)从n个数据对象中任意选取k个数据对象作为medoids‑聚类的中心,(b)选定基于网络的Person距离,即:<mrow><mi>E</mi><mi>P</mi><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>I</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow><mrow><msqrt><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>I</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><msqrt><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>I</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow></mfrac><mo>,</mo></mrow>然后分别计算余下的数据对象到各个聚类中心的距离,并将余下的数据对象分配到离自己最近的聚类中,最终得到k组划分,G1,G2,…,Gk;(c)数据对象分配完成后,顺序选取一个数据对象来代替原来的聚类中心,并计算代替后的优化目标函数<mrow><mi>f</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><munder><mi>&Sigma;</mi><mrow><mi>j s</mi><mo>.</mo><mi>t</mi><mo>.</mo><msub><mi>x</mi><mi>j</mi></msub><mo>&Element;</mo><msub><mi>G</mi><mi>i</mi></msub></mrow></munder><mi>d</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>j</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>x</mi><mi>i</mi><mo>*</mo></msubsup><mo>)</mo></mrow><mo>;</mo></mrow>其中,d(x1,x2)定义如下:<mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>x</mi><mn>1</mn></msub><mo>,</mo><msub><mi>x</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>I</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow><msqrt><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>I</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><mrow><msub><mi>x</mi><mrow><mn>1</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover></mrow><mo>)</mo></mrow><mn>2</mn></msup><msqrt><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>I</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><mrow><msub><mi>x</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub><mo>-</mo><mover><msub><mi>x</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover></mrow><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow></msqrt></mfrac><mo>;</mo></mrow>同理定义d(xi,xj)和其中,为从x1,x2,…,xn中选取的k个聚类中心;表示xj∈Gi;再选择f最小的数据对象来代替聚类中心,这样K个mediods就改变了;(d)与前一次的聚类中心相比较,如果发生变化转到方法(b),如果不发生变化转到方法(e);(e)将聚类的结果输出;所述过程(4)具体是指:根据过程(3)的聚类结果,得出最终关于疾病亚型的分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州奥视图像技术有限公司,未经杭州奥视图像技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510532877.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top