[发明专利]高通量测序数据的变异路径图表示方法及其生成方法在审
申请号: | 202110259459.3 | 申请日: | 2021-03-10 |
公开(公告)号: | CN112992269A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 沈雪玲 | 申请(专利权)人: | 杭州新范式生物医药科技有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B20/20;G16B20/50 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 李亦慈 |
地址: | 310000 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通量 序数 变异 路径 图表 方法 及其 生成 | ||
本发明公开了一种高通量测序数据的变异路径图表示方法及其生成方法,变异路径图包括路径片段和切点,路径片段由一组路径单元从左至右顺序连接组成,路径片段代表一个长度大于等于1的任意序列,路径片段与路径单元的首尾均由切点标记。本发明定义了变异路径图的数据结构,包括路径片段、路径单元、切点;以及变异路径图表示原始测序数据读段的方法,提出了识别切点的方法,以及建立切点在“变异路径图上的位置”与在“原始测序数据读段上的位置”之间的对应关系的方法,提出了通过切点的追踪,将读段拆分成覆盖不同路径单元的小片段,再归集成为路径单元、连接成为路径片段,最后得到变异路径图的拼接方法。
技术领域
本发明涉及高通量测序数据的分析与应用领域,具体地说,是一种高通量测序数据的变异路径图表示方法及其生成方法。
背景技术
高通量测序是现代生物医学研究和应用领域的常用技术。高通量测序的结果是大量的短片段序列信息,称为“读段”。目前常见的读段形式为一对字符串,长度为100-150。其中一个字符串由A、T、C、G组成,代表所测得的序列;另一个字符串由序列的每个位置对应的测序质量数值转化而成的字符组成。高通量测序数据的分析流程,一般需要首先将这些读段的序列,比对到参考基因组的相应位置。然后,依据参考基因组上特定的位置被多少读段覆盖(即覆盖深度)、参考基因组与测得序列在对应位置上的差异,计算一系列生物医学指标,例如:基因表达量、转录因子结合位置、表观遗传修饰位置、基因变异、蛋白变异、可能的新抗原(肽段变异)等。
目前这一主流的分析流程存在一定缺陷,主要是:1)由于测序对象的基因组存在个体差异,一部分测序对象特有的基因组序列在参考基因组上不存在,因此这部分测序数据无法比对到参考基因组上。于是,与测序对象特有基因组序列相关的序列特征,无法进入后续分析流程的视野,成为生物医学研究与应用的盲区。这一缺陷在与肿瘤相关的研究与应用中非常重要。肿瘤的成因有很大可能是由于患者的个体特异的基因组区域发生了变异,而这些变异无法利用基于参考基因组的分析流程发现。2)目前,将测序读段比对到参考基因组上的软件工具普遍存在一定的设计局限:通过比对参考基因组的方法,很难有效地发现染色体结构变异(例如,测序对象的基因组相对于参考基因组发生了大片段的序列重排等)。染色体结构变异对基因功能往往造成较大的影响。基于参考基因组的方法在染色体结构变异发现中的效率不足,也是目前肿瘤和其它疾病机制研究的瓶颈之一。
另一方面,通过高通量测序数据可以拼接得到测序对象的基因组。这一方法可以得到测序对象的特有基因组序列。但是,由于基因组的结构复杂,现有的序列拼接工具通常仅给出一组最可能的基因序列。这些序列依据经验可能性选出,并不能完整地表示真实测序数据中包含的全部序列变异信息。因此,利用目前的拼接工具得到的测序对象的个体化基因组序列,仍具有信息损失。此外,利用拼接得到的个体化基因组作为参考基因组进行后续的分析,仍然受制于上述基于参考基因组的分析流程的第二个局限。
目前,常用基因组拼接工具的基本算法是德布鲁因图(de Bruijn Graph)。在德布鲁因图中,每一个读段的序列字符串被切分成长度为K的小片段,称为K串。具有相同序列的K串被认为是基因组上的同一座位(因此,本发明中也称K为分辨率参数)。以每一个K串为一个节点,如两个K串具有重叠的(K-1)个字符,那么它们之间存在一条边。通过这种方法,每个读段均可被映射成德布鲁因图中的一条路径。于是,序列拼接问题转化为在德布鲁因图中寻找一组包含所有读段的路径的问题。虽然利用德布鲁因图可以完整地表示高通量测序数据,但是一个分辨率足够高(K足够大)的德布鲁因图的节点数过多(几乎等于整个基因组的位点数),遍历该图非常困难;同时,图中每个节点记录的序列均与其相邻节点记录的序列有K-1个长度的字符重复,导致储存空间的低效使用。由于这两个问题的存在,直接基于德布鲁因图进行不依赖参考基因组的测序数据分析非常低效,计算成本过高,很难实际使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州新范式生物医药科技有限公司,未经杭州新范式生物医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110259459.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电流型光电转换器、装置及方法
- 下一篇:一种智能化照明控制系统及控制方法