[发明专利]识别被测序基因组中的重排有效
申请号: | 201180059581.0 | 申请日: | 2011-10-11 |
公开(公告)号: | CN103262086B | 公开(公告)日: | 2016-11-02 |
发明(设计)人: | I.纳扎伦科;A.L.哈尔珀恩;P.卡恩瓦力 | 申请(专利权)人: | 考利达基因组股份有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 史新宏 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 被测序 基因组 中的 重排 | ||
1.一种在样本基因组与参考基因组之间确定是否存在结点的方法,所述样本基因组属于提供生物样本的有机体,所述方法包含:
从生物样本接收双末端测序多个片段的结果,该结果包括片段的末端配对和该末端配对到参考基因组的映射,其中一个末端配对包括片段的第一端的第一臂读数和片段的相对端的相应臂读数;
根据末端配对到参考基因组的映射识别样本基因组中的结区,该结区包括:
包含结区的第一边缘的第一边缘部分;
包含结区的第二边缘的第二边缘部分,第一边缘与第二边缘相对;以及
第一边缘与第二边缘之间的潜在结点;
识别第一臂读数的第一集合,其中每个第一臂读数至少部分映射到第一边缘部分或具有根据各自相应臂读数的映射地点至少部分映射到第一边缘部分的不可忽略概率;以及
将第一集合的第一臂读数的序列相互比较,以确定在结区中是否存在结点。
2.如权利要求1所述的方法,其中各自相应臂读数在第一边缘部分附近或在第二边缘部分附近的地点上映射到参考基因组。
3.如权利要求1或2所述的方法,其中第一集合包括协调末端配对的第一臂读数。
4.如权利要求1到3的任何一项所述的方法,其中当第一集合的第一臂读数与在参考基因组的第一区域中开始和在参考基因组的第二区域中结束的序列不一致时,确定不存在结点。
5.如权利要求1到4的任何一项所述的方法,其中当各自相应臂读数根据片段长度的统计分布处在预期长度范围内时,第一臂读数具有至少部分映射到第一边缘部分的不可忽略概率。
6.如权利要求1到5的任何一项所述的方法,其中该比较通过如下步骤来进行:
识别映射到第一边缘的第一集合的一个或多个第一臂读数的初始子集;然后
着手寻找包括朝着潜在结点的碱基对、与初始子集的第一臂读数重叠的第一集合的一个或多个其他第一臂读数;以及然后
将所述其他第一臂读数与参考基因组相比较以确定所述其他第一臂读数是否包括结点。
7.如权利要求1到6的任何一项所述的方法,进一步包含:
识别第一臂读数的第二集合,其中每个第一臂读数至少部分映射到第二边缘部分或具有根据各自相应臂读数的映射地点至少部分映射到第二边缘部分的不可忽略概率,其中第二集合的第一臂读数的各自相应臂读数在第二边缘部分附近的地点上映射到参考基因组;以及
比较第二集合的第一臂读数的序列,以确定在结区中是否存在结点。
8.如权利要求7所述的方法,其中至少一个第一臂读数至少部分映射到第一边缘部分和第二边缘部分两者,或具有至少部分映射到第一边缘部分和第二边缘部分两者的不可忽略概率。
9.如权利要求8所述的方法,其中在接收的结果中至少一个第一臂读数未映射到参考基因组。
10.如权利要求7或8所述的方法,进一步包含:
比较第一集合和第二集合的第一臂读数的序列,以确定结区内样本基因组的结点序列;以及
通过如下步骤识别结点序列是否包括结点:
将结点序列与参考基因组相比较,以确定结点序列在参考基因组中是否未表现出连续的。
11.如权利要求10所述的方法,其中如果结点序列在参考基因组中是连续的,则确定不存在结点。
12.如权利要求10所述的方法,其中第一集合和第二集合的第一臂读数相似到足以提供概率大于阈值的结点序列。
13.如权利要求10所述的方法,其中该结点在结点序列偏离参考基因组的地方。
14.如权利要求1到13的任何一项所述的方法,其中识别潜在结点包括:
确定一组失调末端配对,每个失调末端配对包括映射到参考基因组的第一区域的第一臂读数,第一区域在第一侧上结区的外部,以及每个失调末端配对包括在结区相对于第一侧的对侧上不同的地点上映射到参考基因组的相应臂读数。
15.如权利要求14所述的方法,其中确定该组失调末端配对包括:
根据映射结果确定多个失调末端配对;
根据第一臂读数和相应臂读数的地点聚集失调末端配对;以及
从群集之一的失调末端配对中确定该组失调末端配对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于考利达基因组股份有限公司,未经考利达基因组股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180059581.0/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用