[发明专利]用于在基因组图中有效识别和提取序列路径的系统和方法在审
申请号: | 202080069634.6 | 申请日: | 2020-09-29 |
公开(公告)号: | CN114503206A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | Y·H·张 | 申请(专利权)人: | 皇家飞利浦有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘兆君 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 基因组 有效 识别 提取 序列 路径 系统 方法 | ||
一种用于由处理器存储表示多个个体基因组的基因组图的方法,包括:在数据存储装置中存储参考基因组的线性表示;接收第一基因组;根据所述参考基因组来识别所述第一基因组中的变化;根据所述参考基因组来生成针对所述第一基因组中的每个变化的图边缘;针对每个生成的图边缘生成:边缘标识符,其唯一地标识所述基因组图中的当前边缘;开始边缘标识符,其标识所述当前边缘从中分支的边缘;开始位置,其指示在开始边缘上充当所述当前边缘的锚定点的位置;结束边缘标识符,其标识所述当前边缘加入其中的边缘;结束位置,其指示在结束边缘上充当所述当前边缘的锚定点的位置;以及序列,其指示所述当前边缘的核苷酸序列;并且在所述数据存储装置中存储针对每个生成的图边缘的所述边缘标识符、所述开始边缘标识符、所述开始位置、所述结束边缘标识符、所述结束边缘位置以及所述序列。基于该基因组图数据结构,我们进一步提出了一种用于指定可以遍历一个或多个边缘的路径的方案以及扩展诸如SAM、VCF和MPEG‑G之类的现有基因组数据格式以支持通过使用我们提出的坐标系来使用基因组图参考的方法。
技术领域
本文公开的各种示例性实施例总体上涉及用于在基因组图中有效识别和提取序列路径的系统和方法。
背景技术
线性参考基因组是目前在对下一代测序(NGS)数据的处理和分析(例如,读取结果比对(read alignment)和变体识别(variant calling))中使用的最普遍的模型。它基于对单个路径(优选覆瓦式路径(tiling path))的使用来产生基因组的单个共识表示。例如,线性参考NCBI GRCh38(Hg38)是复合基因组,其具有大约93%的主要组件,这些主要组件包含来自11个个体的序列。尽管线性参考基因组因其易于参考且对计算分析的要求较低而受到科学家的欢迎,单个覆瓦式路径也不足以表示针对大多数哺乳动物基因组的复杂基因组区域中的等位基因多样性。由于排除了大量的常见基因组变异,线性参考基因组引入了普遍的参考偏差,这对下游分析的准确性产生了负面影响。例如,如果包含患者的临床相关突变的基因组区域与参考基因组显著不同,则患者的在该区域中的测序读取结果将不会被正确映射到参考,从而导致错过识别对于诊断和处置至关重要的变体。最新的人类参考基因组GRCh38尝试通过在具有已知的替代单倍型(例如,主要组织相容性复合物(MHC))、高变异性(例如,嗅觉受体)和大于5Kb的大结构变体的区域中包括替代基因座染色体骨架(scaffold)来改善对等位基因多样性的表示。然而,许多科学家相信:表示参考队列中的复杂基因组多样性的最有效的方法之一是采用基因组图,在基因组图中,捕获基因组变异作为与不同核苷酸序列相关联的边缘。随着生物信息学算法和计算能力的进步,预见到基于图的基因组分析将成为基因组研究的主流方法之一。
发明内容
下面呈现了对各种示例性实施例的概述。可以在以下概述中做出一些简化和省略,其旨在突出显示和引入各种示例性实施例的某些方面,而不是限制本发明的范围。将在后面的章节中详细描述示例性实施例,这些详细描述足以允许本领域普通技术人员做出和使用本发明的构思。
各种实施例涉及一种用于由处理器存储表示多个个体基因组的基因组图的方法,包括:在数据存储装置中存储参考基因组的线性表示;接收第一基因组;根据所述参考基因组来识别所述第一基因组中的变化;根据所述参考基因组来生成针对所述第一基因组中的每个变化的图边缘;针对每个生成的图边缘生成:边缘标识符,其唯一地标识所述基因组图中的当前边缘;开始边缘标识符,其标识所述当前边缘从中分支的边缘;开始位置,其指示在开始边缘上充当所述当前边缘的锚定点的位置;结束边缘标识符,其标识所述当前边缘加入其中的边缘;结束位置,其指示在结束边缘上充当所述当前边缘的锚定点的位置;以及序列,其指示所述当前边缘的核苷酸序列;并且在所述数据存储装置中存储针对每个生成的图边缘的所述边缘标识符、所述开始边缘标识符、所述开始位置、所述结束边缘标识符、所述结束边缘位置以及所述序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080069634.6/2.html,转载请声明来源钻瓜专利网。