[发明专利]用于疾病亚型问题的基于网络的聚类方法在审

申请号：	201510532877.X	申请日：	2015-08-27
公开（公告）号：	CN105160208A	公开（公告）日：	2015-12-16
发明（设计）人：	孔德兴;方红晟	申请（专利权）人：	杭州奥视图像技术有限公司
主分类号：	G06F19/24	分类号：	G06F19/24
代理公司：	杭州中成专利事务所有限公司 33212	代理人：	周世骏
地址：	310023 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于疾病问题基于网络方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.用于疾病亚型问题的基于网络的聚类方法，其特征在于，具体包括下述过程：

(1)获得O-G矩阵以及基因调控网络；

(2)选取适用于具体问题的基于网络的距离定义，构建距离矩阵；

(3)运用k-medoids算法对O-G矩阵进行聚类分析；聚类时距离的选择用基于网络的距离；

(4)得出最终关于疾病亚型的分类；

所述过程(1)具体包括下述步骤：

步骤A：根据基因调控网络的特性，构建随机的有向图来代表基因调控网络G(V，E)；其中每个顶点i∈V代表基因i及其产生的mRNA_i和蛋白质i；每条有向边e_ji∈E代表着“转录因子j调控基因i的转录”这种调控关系；

步骤B：根据产生的基因调控网络G(V，E)，对每个基因i建立激活函数f_i(·)，具体建立方式为：

对于任意的基因i∈V，i＝1，2，K，n，我们从G(V，E)中找出所有与i相邻且以i为有向边终点的点，构成影响因子集合{q₁，q₂，K，q_sn}；其中，q₁表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子，q₂表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子，q_sn表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子，n表示基因调控网络中基因的数量；

确定解离常数k_ij，且k_ij从定义在[0.01，1]区间上的均匀分布中选取；

确定希尔系数n_ij，且n_ij服从[1，10]区间中的高斯分布函数

确定相对活性α_i，且α_i从定义在[0，1]区间上的均匀分布上采样；

步骤C：确定无噪声动态基因调控模型，即确定公式(2.1)的各个参数；

FimRNA(x,y)=dxidt=mi·fi(y)-λiRNA·xiFiProt(x,y)=dyidt=ri·xi-λiProt·yi---(2.1)]]>

式(2.1)中，x_i表示基因i的浓度；y_i表示蛋白质i的浓度；F_i^mRNA表示mRNA_i的浓度变化率；F_i^Prot表示蛋白质i的浓度变化率；m_i表示基因i的最大转录速率；r_i表示mRNA_i的翻译速率；表示mRNA_i的降解速率；表示蛋白质i的降解速率；f_i(·)表示基因i的激活函数；

确定公式(2.1)中各个参数的具体方式为：mRNA的半衰期T_i^RNA以及蛋白质的半衰期T_i^Prot从定义在[5，50]区间上的高斯分布上采样；

根据公式(2.9)，获得mRNA以及蛋白质的降解速率，最大转录速率m_i以及翻译速率r_i服从[0.01，0.011]区间上的均匀分布；

λiRNA=ln2TiRNAλiRrot=ln2TiRrot---(2.9)]]>

式(2.9)中，表示mRNA_i的降解速率；表示蛋白质i的降解速率；mRNA的半衰期T_i^RNA以及蛋白质的半衰期T_i^Prot；

步骤D：在获得了基因调控网络以及无噪声动态基因调控模型之后，选定mRNA浓度x(x₁，x₂，K，x_n)以及蛋白质浓度y(y₁，y₂，K，y_n)的初始值，然后求解公式(2.1)，得到最终的基因表达数据；

所述过程(2)具体是指：根据过程(1)所获得的基因网络的拓扑关系G(V，E)，定义三种基于网络的距离，用于比较x₁(x₁₁，x₁₂，K，x_1n)与x₂(x₂₁，x₂₂，K，x_2n)的差别；其中x₁(x₁₁，x₁₂，K，x_1n)、x₂(x₂₁，x₂₂，K，x_2n)分别表示两个被试者P₁和P₂的mRNA浓度；

令G(V，E)代表该基因调控网络，其中每个顶点i∈V代表基因i及其产生的mRNA_i和蛋白质i；它关联的x_i表示该基因转录的mRNA_i浓度；令每条有向边e_ji∈E代表着“转录因子j调控基因i的转录”这种调控关系；记T_i表示与节点i相连的边数，I_i表示节点i的入度，O_i表示节点i的出度；

其中，基于网络的Jaccard距离定义为：

EJ=2Σi=1nTi|x1i-x2i|Σi=1nTi(x1i+x2i)+Σi=1nTi|x1i-x2i|]]>公式(3.10)；

其中，令G(V，E)代表该基因调控网络，其中每个顶点i∈V代表基因i及其产生的mRNA_i和蛋白质i；它关联的x_i表示该基因转录的mRNA_i浓度；T_i表示与节点i相连的边数，I_i表示节点i的入度，O_i表示节点i的出度；x_1i指被试者P1的mRNA_i浓度；x_2i指被试者P2的mRNA_i浓度；n表示基因调控网络中基因的数量；

基于网络的Euclidean距离：

EE=Σi=1nΣj=1nδij(x1i-x2i)(x1j-x2j)]]>公式(3.11)；