[发明专利]用于疾病亚型问题的基于网络的聚类方法在审
申请号: | 201510532877.X | 申请日: | 2015-08-27 |
公开(公告)号: | CN105160208A | 公开(公告)日: | 2015-12-16 |
发明(设计)人: | 孔德兴;方红晟 | 申请(专利权)人: | 杭州奥视图像技术有限公司 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 周世骏 |
地址: | 310023 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及逆向研究疾病亚型领域,旨在提供用于疾病亚型问题的基于网络的聚类方法。该用于疾病亚型问题的基于网络的聚类方法包括过程:获得O-G矩阵以及基因调控网络;选取适用于具体问题的基于网络的距离定义,构建距离矩阵;运用k-medoids算法对O-G矩阵进行聚类分析,聚类时距离的选择用基于网络的距离。本发明对于特定的基因网络,将有更好的组间相似性,能更有效地还原三种亚型;当有大量的基因需要测定其表达数据时,本发明通过优先精确测量信息基因的表达数据,不会大大地削弱对于疾病亚型的鉴定效果。 | ||
搜索关键词: | 用于 疾病 问题 基于 网络 方法 | ||
【主权项】:
用于疾病亚型问题的基于网络的聚类方法,其特征在于,具体包括下述过程:(1)获得O‑G矩阵以及基因调控网络;(2)选取适用于具体问题的基于网络的距离定义,构建距离矩阵;(3)运用k‑medoids算法对O‑G矩阵进行聚类分析;聚类时距离的选择用基于网络的距离;(4)得出最终关于疾病亚型的分类;所述过程(1)具体包括下述步骤:步骤A:根据基因调控网络的特性,构建随机的有向图来代表基因调控网络G(V,E);其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;步骤B:根据产生的基因调控网络G(V,E),对每个基因i建立激活函数fi(·),具体建立方式为:对于任意的基因i∈V,i=1,2,K,n,我们从G(V,E)中找出所有与i相邻且以i为有向边终点的点,构成影响因子集合{q1,q2,K,qsn};其中,q1表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,q2表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,qsn表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,n表示基因调控网络中基因的数量;确定解离常数kij,且kij从定义在[0.01,1]区间上的均匀分布中选取;确定希尔系数nij,且nij服从[1,10]区间中的高斯分布函数
确定相对活性αi,且αi从定义在[0,1]区间上的均匀分布上采样;步骤C:确定无噪声动态基因调控模型,即确定公式(2.1)的各个参数;![]()
式(2.1)中,xi表示基因i的浓度;yi表示蛋白质i的浓度;FimRNA表示mRNAi的浓度变化率;FiProt表示蛋白质i的浓度变化率;mi表示基因i的最大转录速率;ri表示mRNAi的翻译速率;
表示mRNAi的降解速率;
表示蛋白质i的降解速率;fi(·)表示基因i的激活函数;确定公式(2.1)中各个参数的具体方式为:mRNA的半衰期TiRNA以及蛋白质的半衰期TiProt从定义在[5,50]区间上的高斯分布
上采样;根据公式(2.9),获得mRNA以及蛋白质的降解速率,最大转录速率mi以及翻译速率ri服从[0.01,0.011]区间上的均匀分布;![]()
式(2.9)中,
表示mRNAi的降解速率;
表示蛋白质i的降解速率;mRNA的半衰期TiRNA以及蛋白质的半衰期TiProt;步骤D:在获得了基因调控网络以及无噪声动态基因调控模型之后,选定mRNA浓度x(x1,x2,K,xn)以及蛋白质浓度y(y1,y2,K,yn)的初始值,然后求解公式(2.1),得到最终的基因表达数据;所述过程(2)具体是指:根据过程(1)所获得的基因网络的拓扑关系G(V,E),定义三种基于网络的距离,用于比较x1(x11,x12,K,x1n)与x2(x21,x22,K,x2n)的差别;其中x1(x11,x12,K,x1n)、x2(x21,x22,K,x2n)分别表示两个被试者P1和P2的mRNA浓度;令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;令每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;记Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;其中,基于网络的Jaccard距离定义为:![]()
公式(3.10);其中,令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;n表示基因调控网络中基因的数量;基于网络的Euclidean距离:![]()
公式(3.11);式中,
其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;x1j指被试者P1的mRNAj浓度;x2j指被试者P2的mRNAj浓度;n表示基因调控网络中基因的数量;基于网络的Pearson距离:![]()
公式(3.12);其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNA1浓度;n表示基因调控网络中基因的数量;Ii表示节点i的入度;
这里的xi1指被试者Pi的mRNA1浓度;这里的xi2指被试者Pi的mRNA2浓度;所述过程(3)具体是指:将过程(2)中定义的距离引入聚类分析中,使用k‑medoids聚类分析方法,对过程(1)所获得的基因表达数据进行聚类;假设有n个被试者,我们将n个被试者划分为k类,K‑medoids聚类算法是,基于网络的Pearson距离具体的算法具体方法如下:(a)从n个数据对象中任意选取k个数据对象作为medoids‑聚类的中心,
(b)选定基于网络的Person距离,即:![]()
然后分别计算余下的数据对象到各个聚类中心的距离,并将余下的数据对象分配到离自己最近的聚类中,最终得到k组划分,G1,G2,…,Gk;(c)数据对象分配完成后,顺序选取一个数据对象来代替原来的聚类中心,并计算代替后的优化目标函数![]()
其中,d(x1,x2)定义如下:![]()
同理定义d(xi,xj)和
其中,
为从x1,x2,…,xn中选取的k个聚类中心;
表示xj∈Gi;再选择f最小的数据对象来代替聚类中心,这样K个mediods就改变了;(d)与前一次的聚类中心相比较,如果发生变化转到方法(b),如果不发生变化转到方法(e);(e)将聚类的结果输出;所述过程(4)具体是指:根据过程(3)的聚类结果,得出最终关于疾病亚型的分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州奥视图像技术有限公司,未经杭州奥视图像技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510532877.X/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用