[发明专利]确定个体染色体结构异常的方法和系统在审
申请号: | 201710602834.3 | 申请日: | 2017-07-21 |
公开(公告)号: | CN109280702A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 徐凤萍;王文婧;叶玲飞;杨振军;袁剑颖;徐金金 | 申请(专利权)人: | 深圳华大基因研究院 |
主分类号: | C12Q1/6883 | 分类号: | C12Q1/6883 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 赵天月 |
地址: | 518083 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常类型 染色体 集合 染色体结构 测序 全基因组 微阵列芯片 第一数据 数据分析 组织样本 分析 样本 | ||
1.一种确定个体染色体结构异常的方法,其特征在于,包括:
(1)利用核型分析和微阵列芯片分析的至少之一,确定所述个体的第一候选染色体结构异常类型,以便获得第一候选染色体异常类型集合,所述第一候选染色体异常类型集合作为金标准结果集合;
(2)对所述个体的组织样本进行全基因组测序,并对所得到的测序结果进行第一数据分析,以便获得第二候选染色体异常类型集合,优选地,所述组织样本为血液样本;
(3)对所述个体的单细胞样本进行全基因组测序,并对所得到的测序结果进行第二数据分析,以便获得第三候选染色体异常类型集合,优选地,所述细胞样本为淋巴细胞样本;
(4)基于所述第一候选染色体异常类型集合、第二候选染色体异常类型集合和第三候选染色体异常类型集合,确定所述个体的最终染色体结构异常类型。
2.根据权利要求1所述的方法,其特征在于,所述染色体结构异常包括结构变异SV和拷贝数变异CNV的至少之一。
3.根据权利要求1所述的方法,其特征在于,所述第一数据分析和所述第二数据分析的至少之一是通过下列步骤进行的:
(a)将所述测序结果与基因组参考序列比对,所述测序结果由多对读长对构成;
(b)基于步骤(a)的比对结果,确定所述多对读长对的每一对在所述基因组参考序列上的物理距离;
(c)基于步骤(b)中获得的所述物理距离,将所述多对读长对区分为正常匹配集合和异常匹配集合;
(d)将所述异常匹配集合中的读长进行聚类,以便获得多对读长簇对;
(e)基于各读长簇对中所含有读长的紧致程度和线性相关性,对所述多对读长簇对进行过滤;以及
(f)基于所述的经过过滤的多对读长簇对,确定染色体结构异常的断点和染色体异常类型。
4.根据权利要求3所述的方法,其特征在于,在步骤(c)中,通过将所述物理距离与预定的核酸片段长度相比较,将所述多对读长对区分为正常匹配集合和异常匹配集合,其中,所述预定的核酸长度是基于所述全基因组测序的插入片段大小而确定的。
5.根据权利要求3所述的方法,其特征在于,所述紧致程度是基于下列公式确定的:
其中,x1,x2,x3…xn表示读长簇的reads的位置,n表示读长条数,M表示位置的平均值,s2表示方差。
6.根据权利要求5所述的方法,其特征在于,在计算所述紧致程度之前,预先将所述读长簇对中位于所述读长簇对长度范围两端25%以内的所述读长的至少一部分排除。
7.根据权利要求3所述的方法,其特征在于,所述线性相关性是通过对所述读长簇对所包含的读长进行t-test相关性检验而确定的。
8.根据权利要求3所述的方法,其特征在于,在步骤(e)中进一步包括:
(e-1)基于所述读长簇对中所含有的读长与所述基因组参考序列的匹配关系,确定所述结构变异的类型;
(e-2)基于所述读长簇对中所含有的读长在所述基因组参考序列上的匹配位置,确定所述结构变异的断点范围。
9.根据权利要求8所述的方法,其特征在于,在步骤(e-2)中,
针对重复变异,选择在所述成对读长簇对中匹配到的距离最远的两个位置之间的范围并向外侧延伸预定距离,作为所述断点范围。
10.根据权利要求8所述的方法,其特征在于,在步骤(e-2)中,
针对缺失变异,选择在所述成对读长簇对中匹配到的距离最近的两个位置之间的范围并向内侧延伸预定距离,作为所述断点范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因研究院,未经深圳华大基因研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710602834.3/1.html,转载请声明来源钻瓜专利网。