[发明专利]用于疾病亚型问题的基于网络的聚类方法在审

专利信息
申请号: 201510532877.X 申请日: 2015-08-27
公开(公告)号: CN105160208A 公开(公告)日: 2015-12-16
发明(设计)人: 孔德兴;方红晟 申请(专利权)人: 杭州奥视图像技术有限公司
主分类号: G06F19/24 分类号: G06F19/24
代理公司: 杭州中成专利事务所有限公司 33212 代理人: 周世骏
地址: 310023 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 疾病 问题 基于 网络 方法
【权利要求书】:

1.用于疾病亚型问题的基于网络的聚类方法,其特征在于,具体包括下述过程:

(1)获得O-G矩阵以及基因调控网络;

(2)选取适用于具体问题的基于网络的距离定义,构建距离矩阵;

(3)运用k-medoids算法对O-G矩阵进行聚类分析;聚类时距离的选择用基于网络的距离;

(4)得出最终关于疾病亚型的分类;

所述过程(1)具体包括下述步骤:

步骤A:根据基因调控网络的特性,构建随机的有向图来代表基因调控网络G(V,E);其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;

步骤B:根据产生的基因调控网络G(V,E),对每个基因i建立激活函数fi(·),具体建立方式为:

对于任意的基因i∈V,i=1,2,K,n,我们从G(V,E)中找出所有与i相邻且以i为有向边终点的点,构成影响因子集合{q1,q2,K,qsn};其中,q1表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,q2表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,qsn表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,n表示基因调控网络中基因的数量;

确定解离常数kij,且kij从定义在[0.01,1]区间上的均匀分布中选取;

确定希尔系数nij,且nij服从[1,10]区间中的高斯分布函数

确定相对活性αi,且αi从定义在[0,1]区间上的均匀分布上采样;

步骤C:确定无噪声动态基因调控模型,即确定公式(2.1)的各个参数;

FimRNA(x,y)=dxidt=mi·fi(y)-λiRNA·xiFiProt(x,y)=dyidt=ri·xi-λiProt·yi---(2.1)]]>

式(2.1)中,xi表示基因i的浓度;yi表示蛋白质i的浓度;FimRNA表示mRNAi的浓度变化率;FiProt表示蛋白质i的浓度变化率;mi表示基因i的最大转录速率;ri表示mRNAi的翻译速率;表示mRNAi的降解速率;表示蛋白质i的降解速率;fi(·)表示基因i的激活函数;

确定公式(2.1)中各个参数的具体方式为:mRNA的半衰期TiRNA以及蛋白质的半衰期TiProt从定义在[5,50]区间上的高斯分布上采样;

根据公式(2.9),获得mRNA以及蛋白质的降解速率,最大转录速率mi以及翻译速率ri服从[0.01,0.011]区间上的均匀分布;

λiRNA=ln2TiRNAλiRrot=ln2TiRrot---(2.9)]]>

式(2.9)中,表示mRNAi的降解速率;表示蛋白质i的降解速率;mRNA的半衰期TiRNA以及蛋白质的半衰期TiProt

步骤D:在获得了基因调控网络以及无噪声动态基因调控模型之后,选定mRNA浓度x(x1,x2,K,xn)以及蛋白质浓度y(y1,y2,K,yn)的初始值,然后求解公式(2.1),得到最终的基因表达数据;

所述过程(2)具体是指:根据过程(1)所获得的基因网络的拓扑关系G(V,E),定义三种基于网络的距离,用于比较x1(x11,x12,K,x1n)与x2(x21,x22,K,x2n)的差别;其中x1(x11,x12,K,x1n)、x2(x21,x22,K,x2n)分别表示两个被试者P1和P2的mRNA浓度;

令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;令每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;记Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;

其中,基于网络的Jaccard距离定义为:

EJ=2Σi=1nTi|x1i-x2i|Σi=1nTi(x1i+x2i)+Σi=1nTi|x1i-x2i|]]>公式(3.10);

其中,令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;n表示基因调控网络中基因的数量;

基于网络的Euclidean距离:

EE=Σi=1nΣj=1nδij(x1i-x2i)(x1j-x2j)]]>公式(3.11);

式中,

其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;x1j指被试者P1的mRNAj浓度;x2j指被试者P2的mRNAj浓度;n表示基因调控网络中基因的数量;

基于网络的Pearson距离:

EP=1-Σi=1nIi(x1i-x1)(x2i-x2)Σi=1nIi(x1i-x1)2Σi=1nIi(x2i-x2)2]]>公式(3.12);

其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNA1浓度;n表示基因调控网络中基因的数量;

Ii表示节点i的入度;这里的xi1指被试者Pi的mRNA1浓度;这里的xi2指被试者Pi的mRNA2浓度;

所述过程(3)具体是指:将过程(2)中定义的距离引入聚类分析中,使用k-medoids聚类分析方法,对过程(1)所获得的基因表达数据进行聚类;

假设有n个被试者,我们将n个被试者划分为k类,K-medoids聚类算法是,基于网络的Pearson距离具体的算法具体方法如下:

(a)从n个数据对象中任意选取k个数据对象作为medoids-聚类的中心,

(b)选定基于网络的Person距离,即:

EP=1-Σi=1nIi(x1i-x1)(x2i-x2)Σi=1nIi(x1i-x1)2Σi=1nIi(x2i-x2)2,]]>

然后分别计算余下的数据对象到各个聚类中心的距离,并将余下的数据对象分配到离自己最近的聚类中,最终得到k组划分,G1,G2,…,Gk

(c)数据对象分配完成后,顺序选取一个数据对象来代替原来的聚类中心,并计算代替后的优化目标函数f=Σi=1kΣj s.t.xjGid(xj(i),xi*);]]>

其中,d(x1,x2)定义如下:

d(x1,x2)=1-Σi=1nIi(x1i-x1)(x2i-x2)Σi=1nIi(x1i-x1)2Σi=1nIi(x2i-x2)2;]]>

同理定义d(xi,xj)和其中,为从x1,x2,…,xn中选取的k个聚类中心;表示xj∈Gi

再选择f最小的数据对象来代替聚类中心,这样K个mediods就改变了;

(d)与前一次的聚类中心相比较,如果发生变化转到方法(b),如果不发生变化转到方法(e);

(e)将聚类的结果输出;

所述过程(4)具体是指:根据过程(3)的聚类结果,得出最终关于疾病亚型的分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州奥视图像技术有限公司,未经杭州奥视图像技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510532877.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top