[发明专利]一种基因组拷贝数变异的检测方法和装置在审
申请号: | 201910389538.9 | 申请日: | 2019-05-10 |
公开(公告)号: | CN111916150A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 刘成琨;程涛;刘鹤;张建光 | 申请(专利权)人: | 北京贝瑞和康生物技术有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B20/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 孟凡宏;王月 |
地址: | 102299 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因组 拷贝 变异 检测 方法 装置 | ||
本发明提供一种基因组拷贝数变异检测方法,所述方法包括:获取待测样品的基因组测序序列;将测序序列比对到人类基因组参考序列上,并确定唯一比对至基因组参考序列的位置;将基因组参考序列划分为等长窗口,统计落入每个窗口的唯一比对的测序序列数目,得到每个窗口的有效数据量;对每个窗口的有效数据量进行动态数据校正,得到每个窗口校正后的有效数据量;将校正后的有效数据量标准化,得到每个窗口的有效深度值;使用Fused Lasso算法过滤噪音,并通过对差分项的约束识别潜在的拷贝数变异区域;计算潜在的拷贝数变异区域内的拷贝数值(SCN),并与拷贝数的参考范围进行比较,得到准确的拷贝数变异检测结果。本发明还提供用于实施上述方法的装置和设备。本发明首次建立了计算拷贝数值SCN的数学模型,并确定了基因组区域拷贝数状态的参考区间。此外,本发明能有效地处理测序数据中的噪音,准确地识别拷贝数变异区域。
技术领域
本发明涉及生物信息学和基因组突变检测领域。更具体地,本发明涉及一种基因组拷贝数变异(Copy Number Variation,CNV)的检测方法和装置。
背景技术
拷贝数变异是存在于基因组中的结构性异常,指的是基因组中某个区域DNA片段和正常人群相比出现的拷贝数量不同。常见的拷贝数变异包括缺失、重复、染色体非整倍性。
目前通过NGS数据检测CNV最常用的原理是基于计算深度(read-depth)来实现的,即通过计算某区段的深度与正常参照样品对应区段深度的相对水平,与预先计算得到的相对水平的理论值比较来判断该区段是否存在CNV(Yoon等,2009;Mason-Suares等,2016)。但是,目前CNV检测仍然存在着一定的困难:一方面,由于基因组各个位置上的read覆盖不均匀、样品本身的复杂性、实验操作和测序过程等,均会导致在测序数据中引入不同程度的噪音,对检测结果的准确性产生严重影响(Boeva等,2011)。另一方面,目前关于深度相对水平理论值的研究还非常有限。为了保障检测结果的有效性,需要对深度相对水平的理论值进行深入研究,同时建立一套科学合理的拷贝数状态参考值范围。
因此,目前确定拷贝数变异的方法仍有待改进。
发明内容
因此,本发明提供了一种基因组拷贝数变异的检测方法和装置,能够准确地检测包括微缺失/微重复在内的拷贝数变异。
在第一个方面,本发明提供一种拷贝数变异的检测方法,其特征在于,包括以下步骤:
(1)获取待测样品的基因组测序序列;
(2)将测序序列比对到人类基因组参考序列上,并确定唯一比对至基因组参考序列的位置;
(3)将基因组参考序列划分为等长窗口,统计落入每个窗口的唯一比对的测序序列数目,得到每个窗口的有效数据量;
(4)对每个窗口的有效数据量进行动态数据校正,得到每个窗口校正后的有效数据量;
(5)将校正后的有效数据量标准化,得到每个窗口的有效深度值CR;
(6)使用Fused Lasso算法过滤噪音,并通过对差分项的约束识别潜在的拷贝数变异区域;
(7)根据以下公式计算潜在的拷贝数变异区域内的拷贝数值 (SCN),并与拷贝数值的参考范围进行比较,得到准确的拷贝数变异检测结果;
SCN=CR*×CNNorm,
其中,CR*为该潜在的拷贝数变异区域内的有效深度值,CNNorm是指阴性样品中该潜在的拷贝数变异区域的理论拷贝数值,对于常染色体及女性的X染色体该值为2,对男性的性染色体该值为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京贝瑞和康生物技术有限公司,未经北京贝瑞和康生物技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910389538.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水凝胶敷料及其制备方法
- 下一篇:健康照护管理平台