[发明专利]一种检测基因组拷贝数变异的方法有效
申请号: | 201510744574.4 | 申请日: | 2015-11-05 |
公开(公告)号: | CN105574361B | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 陆思嘉;薄世平;马淑杰 | 申请(专利权)人: | 上海序康医疗科技有限公司 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;C12Q1/68 |
代理公司: | 上海一平知识产权代理有限公司 31266 | 代理人: | 王正君;马思敏 |
地址: | 201400 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 基因组 拷贝 变异 方法 | ||
1.一种检测基因组拷贝数变异的方法,其特征在于,包括以下各步骤:
(1)对样本基因组采用高通量测序平台进行测序,以获得样本的基因组序列;
(2)将步骤(1)的测序结果去掉接头及低质量数据比对到参考基因组,得到序列在基因组上的位置;
(3)将参考基因组分成一定长度的窗口,统计落在每个窗口的序列及碱基;
(4)根据每个窗口的序列及碱基GC含量,对每个窗口做校正,具体如下:
计算每个窗口的平均GC含量GCim,GCim=(GCir+GCig)/2,其中GCir为每个窗口测序序列的GC含量,GCig为每个窗口参考基因组的GC含量,
将GC含量从0到100%按照一定梯度划分成等份,对于测定样本,统计每份的窗口个数nj,所有份的窗口数目的三均值M’,可计算每份的权重系数wj=nj/M’,则每个窗口GC校正后的序列数目RCi=RC×wj,其中RC为原始测序数目,RCi为GC校正后的序列数目,
计算所有窗口GC校正后序列数目的三均值RCM’,可计算得到每个窗口的相对测序数目RCi’=RCi/RCM’;
(5)确定拷贝数正常的阈值,扫描每个窗口,确定窗口拷贝数是否变异;
(6)精确扫描异常的窗口,以确定精确的断点,来确定拷贝数变异的具体位置。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中的测序类型为单端测序或双端测序,测序长度为大于30bp的任意长度,测序深度为基因组的大于0.01的任意倍数。
3.根据权利要求2所述的方法,其特征在于,测序长度为40bp、50bp、100bp或者300bp,测序深度为基因组的0.02、0.1、1、5、10或者30倍。
4.根据权利要求1所述的方法,其特征在于,步骤(2)中在比对到参考基因组时,选择在基因组上唯一比对的序列,去除基因组上多处比对的序列,消除重复序列对拷贝数分析带来的误差。
5.根据权利要求1所述的方法,其特征在于,步骤(3)中窗口的长度为100bp、1K、10K、20K、50K、100K、200K、500K、1000K或3000K。
6.根据权利要求1所述的方法,其特征在于,步骤(4)中的梯度为0.05%、0.1%、0.5%或1%。
7.根据权利要求1所述的方法,其特征在于,步骤(5)中根据样本数据分布特征及数据量,设定单倍型正常波动范围的预定值,然后根据待测样本的倍性,确定正常拷贝数的阈值范围,具体范围为(N–σ,N+σ),其中N为待测样本的倍性,σ为设定单倍型正常波动范围的预定值,按照每条染色体,逐个计算每个窗口及周围一定数目ns窗口的三均值M3i,其中ns为10-100中的一个数,三均值M3i落在正常拷贝数范围外的窗口记录下来,连续的窗口合并,直到遇到正常窗口。
8.根据权利要求7所述的方法,其特征在于,所述预定值为0.05、0.1、0.15或0.2。
9.根据权利要求7所述的方法,其特征在于,所述阈值范围的确定具体为根据样本数据分布特征,计算样本单倍型下所有窗口的标准差SD,确定正常拷贝数的阈值范围为(N–N×m×SD,N+N×m×SD),m为1、2或3。
10.根据权利要求7所述的方法,其特征在于,步骤(6)具体如下:经步骤(5)扫描得到拷贝数异常的连续窗口,这些连续窗口定义为一级区域,具体地,定义一级区域的第一个窗口为第1断点bp1,然后计算一级区域每个窗口及周围一定数目nps窗口的平均值Mnps,nps可为1-10中的任意一个数,逐一计算每个窗口,当出现至少连续2个Mnps落在异常范围时,记录该窗口为第2断点bp2,继续扫描,直到出现至少连续2个Mnps回到正常范围时,记录该窗口为第3断点bp3,这样每遇到正常和异常转换的窗口,记录一个断点bpi,直到一级区域的最后一个窗口,记录为bpf;
断点bp1到断点bpf将一级区域分成(f–1)个次级片段,定义为二级区域,计算每个二级区域窗口拷贝数的三均值M3j,和拷贝数正常范围比较,M3j落在异常范围的二级区域即为精确的拷贝数变异区域,其中M3j为该区域的拷贝数,该区域起始和终止的断点即为拷贝数变异的起始和终止位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海序康医疗科技有限公司,未经上海序康医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510744574.4/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用