[发明专利]基于基因拷贝数改变的模式的结肠直肠癌的基因组分类有效
申请号: | 200980143536.6 | 申请日: | 2009-10-28 |
公开(公告)号: | CN102203787A | 公开(公告)日: | 2011-09-28 |
发明(设计)人: | D·塞米扎罗夫;卢欣;K·张;R·R·列斯尼夫斯基 | 申请(专利权)人: | 雅培制药有限公司 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 权陆军;刘健 |
地址: | 美国伊*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及允许按照基因组概况分类结肠直肠癌细胞的方法和试剂盒,以及诊断、预测临床结果和使患者群体分层以使用所述方法进行临床试验和治疗的方法。 | ||
搜索关键词: | 基于 基因 拷贝 改变 模式 结肠 直肠癌 基因组 分类 | ||
【主权项】:
用于获得结肠直肠癌基因组亚组的数据库的方法,所述方法包括步骤:(a)获得多个,m个,包含至少一个CRC细胞的样品,其中所述样品包含细胞系或肿瘤;(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;(c)鉴定数据集中被正常细胞污染的样品并且从数据集消除所述被污染的样品,其中鉴定和消除包括:(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;(3)从数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;(d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r;(e)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括:(1)利用公式(11)计算每100步乘性更新后算法的散度: D ( V | | WH ) = Σ i = 1 n Σ j = 1 m ( V ij log V ij ( WH ) ij - V ij + ( WH ) ij ) - - - ( 11 ) 其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目;(2)如果步骤(e)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001%,那么终止算法;(3)随机重复算法,进行选择的运行数,并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵: C i , j = ρ ( H , i , H , j ) = 1 r - 1 Σ k ( H k , i - H , i ‾ ) ( H k , j - H , j ‾ ) s H , i s H , j - - - ( 12 ) 其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,且m是数据集中的样品数目,k从1运行至r,且r是来自步骤(d)的亚组的数目;(4)计算获自步骤(e)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵;(5)通过使用1减步骤(e)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇,将样品分配至r个亚组中;(f)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目,其中每一个最终的簇限定了每一个肿瘤或细胞系样品的基因组亚组;和(g)任选地使用10倍稳定性检验评价步骤(f)中选择的簇的终数目的稳定性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雅培制药有限公司,未经雅培制药有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200980143536.6/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用