[发明专利]用于高精度识别变体的系统和方法有效
申请号: | 201680054282.0 | 申请日: | 2016-08-25 |
公开(公告)号: | CN108351917B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | J·Z·桑伯恩 | 申请(专利权)人: | 南托米克斯有限责任公司 |
主分类号: | G16B50/00 | 分类号: | G16B50/00;G16B35/00;G16B45/00;G16C20/60;G16B30/00;G16B20/00 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 杨黎峰;钟锦舜 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 高精度 识别 变体 系统 方法 | ||
提出了用于计算机模拟预测患者的HLA分型的系统和方法,其中,在德布鲁因图中使用患者序列读段和具有已知且不同的HLA等位基因的参考序列。然后使用复合匹配分数对HLA等位基因进行排序,从而提供第一HLA分型。通过使用经调整的复合匹配分数重新排序而鉴定第二HLA分型。
本申请要求2015年8月25日提交的序列号为62/209,858的美国临时申请的优先权。
技术领域
本发明的领域是核苷酸序列的计算机模拟分析的系统和方法,尤其涉及SNP、多核苷酸变体、插入缺失、结构变体和HLA分型的高精度识别。
背景技术
背景描述包括可用于理解本发明的信息。并不是承认本文提供的任何信息是现有技术或与当前要求保护的发明相关,或者明确或暗示引用的任何出版物是现有技术。
本文中的所有出版物和专利申请通过引用并入,其程度如同每个单独的出版物或专利申请被具体地和单独地指示为通过引用并入。当并入的参考文献中的术语定义或使用与本文提供的该术语定义不一致或相反时,本文提供的该术语定义适用,并且参考文献中对该术语的定义不适用。
用于高通量测序数据的变体检测对于精确比对高度相关的基因组序列片段已变得越来越重要,由于序列读段的轻微变化,这通常是不对齐的,导致不精确或变体信息的丢失。已经进行了几次尝试来改善高度相关序列的比对。例如,“Platypus”(维康信托基金会人类遗传学中心)是一种为高通量测序数据中相对高效和精确的变体检测而设计的工具。通过使用读段局部重新排列和局部组装,Platypus实现了相对于SNP、MNP、短插入缺失、替换和缺失高达几kb的较高的灵敏度和较高的特异性检测。虽然Platypus通常比传统的比对系统更精确,但各种困难仍然存在。除其它外,处理覆盖整个基因组的基因组数据是有问题的,并且在存在多个具有高度相似性的序列的情况下,精确度可能不太理想。类似地,DISCOVAR(Broad Institute)是一个对组装序列和鉴定变体相对精确的工具。但是,DISCOVAR通常不适合处理海量数据量。
在另一种方法中,大基因组推理引擎(BIGGIE;Bioinformatics,vol.25,pp.2078-9,2009)通过首先将基因组分类成高复杂度和低复杂度区域并随后相应地分配资源来增加处理速度。虽然这种方法趋于减少对计算资源的需求,但在低复杂度区域出现变体时,识别变体通常不太理想。另外,用于下一代测序数据的大多数已知变体识别体使用概率性框架(例如使用贝叶斯统计)以检测变体并评估变体的置信度。虽然这种方法通常能令人满意地工作,但各种因素如极端读段深度、合并的样本、以及受污染或不纯的样本往往会混淆分析。为了克服这些问题,VarScan(Genome Res.2012 22:568-576)采用启发式/统计方法以识别满足读段深度、碱基质量、变体等位基因频率和统计显著性的期望阈值的变体。然而,这种方法通常不会鉴定没有被单个读段所跨越的基因组中的较大变化。
在另一种已知的方法中,使用相对较长的k聚体(k-mers,例如k至少为55)和隐式编码该图的散列表从测序数据(Nat Genet.2012;44(2):226–232)生成彩色的德布鲁因图(de Bruijn graph)。然而,对于孤立的单核苷酸多态性(SNP)、短插入缺失(1-100bp)以及SNP和插入缺失(1-100bp)的小型复杂组合,作者报道仅80%检测杂合位点的能力和90%检测纯合变体位点的能力。此外,对于中等大小(100-1000bp)的插入缺失和复杂变体,杂合和纯合位点的能力分别为50%和75-80%,对于大变体(1-50kb),作者报道仅检测纯合变体位点的能力(35%)。因此,尽管所描述的彩色德布鲁因图便于至少在某种程度上分析SNP和插入缺失,但精确度和检测能力不如预期。因此,这种方法的主要优势在于同时分析多个基因组,这使得无需任何参考基因组即可实现强大和精确的变体检测方法。
因此,即使用于识别变体的众多系统和方法在本领域中是已知的,仍然需要用于高精度识别变体的改进系统和方法,尤其是涉及计算机模拟HLA分型时。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南托米克斯有限责任公司,未经南托米克斯有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680054282.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新生抗原分析
- 下一篇:对目标分析物的数据集的校准方法