[发明专利]用于疾病亚型问题的基于网络的聚类方法在审
申请号: | 201510532877.X | 申请日: | 2015-08-27 |
公开(公告)号: | CN105160208A | 公开(公告)日: | 2015-12-16 |
发明(设计)人: | 孔德兴;方红晟 | 申请(专利权)人: | 杭州奥视图像技术有限公司 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 周世骏 |
地址: | 310023 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 疾病 问题 基于 网络 方法 | ||
技术领域
本发明是关于逆向研究疾病亚型领域,特别涉及用于疾病亚型问题的基于网络的聚类方法。
背景技术
对于由基因变异导致的疾病的研究一直是一个非常热门的议题。在这些疾病中,很多疾病都有不同的亚型。所谓亚型(subtype),是同一个疾病下的不同的种型。它们可能由不同的病因引起,并且有不同的临床表征。例如HIV有1型和2型,肿瘤亚型有卵巢癌、肺癌、子宫癌等。
对于疾病亚型的很多研究,现阶段还是集中在对于其病理的正向研究。而运用逆向工程技术(reverseengineering),逆向研究疾病亚型也逐渐成为一个热门的话题。“逆向工程技术”是一个研究主体系统的过程。它通过研究主体系统来鉴定系统的各个成分以及它们之间的相互关联,并用另一种方式在更加抽象,更加上层的水平上对该系统进行代表。逆向工程技术在疾病亚型鉴定与分类方面研究上的一个非常重要的应用,就是通过已有的临床信息,例如基因表达数据(geneexpressiondata)等,运用包括聚类分析(clusteranalysis)在内的各种手段,反向研究并鉴定疾病的亚型。然而,由于基因的表达之间并非是独立的,而是会通过各种关系相互作用。因此,最终获取的基因表达数据,也应该是相互关联的。而在以往的研究中,人们只是使用传统的聚类方法,并没有考虑这种基因表达数据间的相互关联。因此,将有关基因的作用关系的信息加入聚类分析中是一个自然、新颖的想法并且值得一试。
发明内容
本发明的主要目的在于克服现有技术中的不足,提供能更好的将疾病亚型进行分类,更好的还原真实的疾病亚型的基于网络的聚类方法。为解决上述技术问题,本发明的解决方案是:
提供用于疾病亚型问题的基于网络的聚类方法,具体包括下述过程:
(1)获得O-G矩阵以及基因调控网络;
(2)选取适用于具体问题的基于网络的距离定义,构建距离矩阵;
(3)运用k-medoids算法对O-G矩阵进行聚类分析;聚类时距离的选择用基于网络的距离;
(4)得出最终关于疾病亚型的分类;
所述过程(1)具体包括下述步骤:
步骤A:根据基因调控网络(即基因-蛋白质调控网络,是一个细胞中DNA片段集合通过相互间的各种非间接作用,比如RNA作用以及蛋白质表达作用,来影响其mRNA以及蛋白质表达水平的相互关系)的特性(例如网络的平均出度、入度等参数),构建随机的有向图来代表基因调控网络G(V,E);其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i(转录因子i);每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;
步骤B:根据产生的基因调控网络G(V,E),对每个基因i建立激活函数fi(·),具体建立方式为:
对于任意的基因i∈V,i=1,2,K,n,我们从G(V,E)中找出所有与i相邻且以i为有向边终点的点,构成影响因子集合{q1,q2,K,qsn};其中,q1表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,q2表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,q1n表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,n表示基因调控网络中基因的数量;
确定解离常数kij,且kij从定义在[0.01,1]区间上的均匀分布中选取;
确定希尔系数nij,且nij服从[1,10]区间中的高斯分布函数
确定相对活性αi,且αi从定义在[0,1]区间上的均匀分布上采样;
步骤C:确定无噪声动态基因调控模型,即确定公式(2.1)的各个参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州奥视图像技术有限公司,未经杭州奥视图像技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510532877.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用