[发明专利]利用深度学习进行基因突变检测在审
申请号: | 202080019288.0 | 申请日: | 2020-03-05 |
公开(公告)号: | CN113574605A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | J·伊斯拉里;A·拉尔;M·维拉;N·亚科文科;胡振 | 申请(专利权)人: | 辉达公司 |
主分类号: | G16B40/30 | 分类号: | G16B40/30;G06N3/00;G06N20/00 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 深度 学习 进行 基因突变 检测 | ||
本公开提供了使用深度学习模型对测序数据(尤其是次优测序数据)中检测到的候选突变进行分类的方法、系统和计算机程序产品。这些方法、系统和程序提供了从宽范围的测序数据中识别突变的提高的效率、准确性和速度。
技术领域
本公开总地涉及用于使用深度学习检测低覆盖率测序数据中的突变的方法和系统。
背景技术
人类基因组是一套完整的人类核酸序列,在细胞核的23对染色体和单个线粒体内的一小DNA分子中编码为DNA。人类基因组由60亿个碱基对组成,碱基对包括编码蛋白质的DNA基因和非编码DNA。人类基因组计划于2001年公布了第一个完整的个人人类基因组序列。目前,数千个人类基因组已完成测序,更多的基因组已以较低级别的分辨率绘制。由此得到的数据在世界范围内用于生物医学、人类学、法医学和其他科学分支。人们普遍认为,基因组研究将在疾病诊断和治疗方面取得进展,并在包括人类进化在内的许多生物学领域带来新的见解。
然而,了解疾病的遗传基础需要准确、快速地确定个体的基因组DNA序列,直至单个碱基对水平。DNA测序的这种级别的分辨率允许识别不同个体之间发生的序列的自然变异。这些各个序列变异位点,通常被称为单核苷酸变异(SNV)或单核苷酸多态性(SNP),存在于各个基因组中,并且对于整个应用范围内基因组序列信息的使用是潜在关键的。SNP是指在不同人群中发生的基因组序列位置的变异。例如,在特定的人类基因组位置,核苷酸C可能出现在大多数人类中,但在少数个体中,A可能出现在相同的基因组位置。这两种不同的核苷酸被称为基因组的特定位置的等位基因。据估计,人类基因组中平均每300bp出现一SNP,导致平均人类基因组序列相对于参考基因组约有1000万个SNP。
SNP通常指在人类生殖细胞的基因组中发现的变异。SNV是更通用的术语,可以包括体细胞基因组中可能出现的特定部位的单个核苷酸变异。癌细胞代表了一类高度研究的体细胞,其包括被认为对其病理表型和诊断至关重要的SNV。
自2000年首次测定个体人类基因组以来,DNA测序技术已经有了很大的进步,该技术估计花费27亿美元。目前,最先进的高通量技术,通常被称为“下一代测序”(NGS)。NGS技术已经实现了对植物和动物基因组的大规模测序,并使测定全基因组序列的过程可以在短短一周内实现,成本约为1000美元。
NGS技术通常通过同时进行数百万个个体重叠序列反应来工作,每个重叠序列反应产生短序列或长度为数百个碱基对的“读段(read)”。测定序列需要覆盖每个碱基位置的多个序列读段,并且通常,希望在每个碱基位置具有30倍的读段冗余(即,“30X覆盖率”)。因此,NGS生成由大量序列读段组成的大型数据集。然而,NGS技术提供的序列读段的错误率相对较高,为-0.1-10%。因此,处理NGS需要对每个样本进行高度复杂的统计误差分析。对NGS序列读段进行反应后处理以考虑并最小化错误的复杂性给正确标识或“识别(calling)”基因组序列中的突变或变异的过程带来了极大的困难。
将真正的突变与NGS数据集中存在的错误区分开来的愿望导致了用于此目的的方法和软件工具的发展。两个广泛使用的用于从NGS数据集中识别突变(诸如SNP、SNV、插入和缺失)的软件工具是Genome Analysis ToolKit或“GATK”(可在software.broadinstitute.org/gatk/获得)和SAMtools(Li等人,“The SequenceAlignment/Map format and SAMtools,”Bioinformatics 25(16):2078-2079(2009))。这些广泛使用的突变识别软件工具使用“经典”方法来对齐序列读段,并对对齐的读段进行生物信息学分析和机器学习建模以识别突变。这些软件工具的“经典”生物信息学和机器学习组件需要对数据特征进行劳动密集型的“手工制作”,这极大地限制了它们在从不同类型的测序机获得的测序数据集和/或具有不同覆盖深度的数据上推广的能力。此外,经典工具(诸如GATK)的突变识别精度在应用于次优(诸如低覆盖率)的测序数据集时明显恶化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080019288.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆的电机控制单元中的电弧故障检测及其操作方法
- 下一篇:控制系统及控制程序