[发明专利]基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质有效
申请号: | 202010038141.8 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111210873B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 叶凯;梁皓;杨晓飞;杨帆;贾鹏;郭立 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16B20/10 | 分类号: | G16B20/10;G16B20/20;G16B30/00;G16B40/00;G16B50/00;G06F17/16;G06F18/2135 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 马贵香 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 外显子测 序数 拷贝 变异 检测 方法 系统 终端 存储 介质 | ||
本发明公开了一种基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质。方法包括:对正常样本的外显子测序数据进行数据清理,然后对数据进行标准化处理,得到正常样本集数据矩阵;根据每个外显子区域在所有样本中的离散程度,将外显子区域划分成稳定与不稳定的区域;正常样本集数据矩阵在外显子稳定的区域中处理批次效应进而构建参考数据矩阵;使用PCA方法对参考数据矩阵进行处理,通过用主成分重构原始数据,将参考数据矩阵转换到其他空间并得到新的参数;将测试数据变换到参考数据矩阵使用PCA转换后的空间中,然后使用Z‑score方法得到测试数据与参考数据矩阵在当前空间中的差异程度,完成对测试样本的拷贝数变异的检测。采用该方法可以降低成本,实现外显子测序数据拷贝数变异检测的准确性和有效性。
技术领域
本发明涉及外显子测序技术领域,尤其是涉及一种基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质。
背景技术
人类是二倍体,有两套遗传信息,分别来自父母,通常认为DNA分子有两个拷贝。拷贝数变异(copy number variants,CNVs)是DNA序列结构变异的一种,通常定义为DNA片段(1Kb)的扩增或删除。
因为发生CNVs的区域一般比较大,大概率会包含若干基因,所以它们在人类疾病和药物反应中具有重要的作用。若CNVs包含影响关键的发育基因会引发很严重的疾病,比如自闭症、精神分裂症、先天性心脏畸形、帕金森、老年痴呆症等等。而且CNVs与癌症的发生也密切相关,导致致癌基因的激活归因于拷贝数的扩增和抑癌基因的失活归因于拷贝数的减少。所以,对CNVs的研究可以在疾病、癌症的治疗和预后发挥重要的作用,也有助于发现一些药物的靶点,应用于临床治疗。
目前检测CNVs主要有两种技术:
1)微阵列比较基因组杂交技术。这种技术有其局限性,检测的结果的灵敏度与精度相对比较低。
2)二代测序技术。随着测序技术快速发展,基于测序技术的CNVs检测结果有更高的分辨率和准确度,而且测序成本不断降低。全基因组测序技术与外显子测序技术成为二代测序技术中检测CNVs和研究人类疾病的主要策略。因为外显子只占了人类基因组的1%左右,外显子测序技术比全基因组测序技术更便宜、更快。
DNA序列由A、G、C、T四种碱基组成,测序实际上就是通过仪器得到由这四种碱基组成的一条很长的字符串。外显子测序技术就是将位于外显子区域的DNA捕获并富集,通过测序得到外显子区域的字符串。所以,使用外显子测序数据检测病人的CNVs成为研究人类疾病主要方式之一。
与全基因组测序技术相比,在外显子数据中检测CNVs存在更高的难度。外显子测序技术的文库准备的时候,杂交这一过程引入了偏差;一些外显子区域内的reads数比较低;全基因组测序数据中reads是连续的,而外显子的reads比对到参考基因组却是孤立的。这些因素使得在外显子测序数据中检测拷贝数变异带来了额外的挑战。
目前,国内外已有的使用外显子测序数据检测CNVs的工具比较好的有以下三个工具:
1)CANOES:利用负二项分布模型拟合数据,去噪声的算法使用的是广义相加模型,去掉GC含量对数据的影响。然后使用HMM和Viterbi算法将拷贝数划分成删除、正常和扩增,但只对比较小的CNVs有很高的敏感度,而且没有考虑外显子区域信号分布不均匀、以及杂交等因素导致的偏差。
2)XHMM:利用高斯近似模型拟合数据,并且用PCA标准化数据,去掉前K个潜在的影响噪声的因子,然而假定所有噪声都是随机的高斯噪声,但GC含量对数据的影响并不是随机的。
3)CoNVEX:同样使用高斯近似模型来拟合数据,但去噪声的算法采用的是通过比对正常样本,设置对照组来减少一些特定的噪声,然而没有考虑杂交等因素导致的偏差和噪声。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038141.8/2.html,转载请声明来源钻瓜专利网。