[发明专利]高通量测序数据的变异路径图表示方法及其生成方法在审
申请号: | 202110259459.3 | 申请日: | 2021-03-10 |
公开(公告)号: | CN112992269A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 沈雪玲 | 申请(专利权)人: | 杭州新范式生物医药科技有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B20/20;G16B20/50 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 李亦慈 |
地址: | 310000 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通量 序数 变异 路径 图表 方法 及其 生成 | ||
1.一种测序数据的变异路径图的具体表示方法,其特征在于,所述的变异路径图包括路径片段和切点,所述的路径片段由一组路径单元从左至右顺序连接组成,所述的路径片段代表一个长度大于等于1的任意序列,所述的路径片段与路径单元的首尾均由切点标记。
2.根据权利要求1所述的测序数据的变异路径图的具体表示方法,其特征在于:
所述的路径片段带有一组附加信息:该路径片段的序列的哪个片段,被原始测序数据中的哪个读段覆盖,以及该路径片段的序列的片段与覆盖它的读段的序列的片段之间的对应关系;
所述的路径单元代表一个长度大于等于1的任意序列,是用于组装路径片段的基础数据结构,仅在计算的中间过程中使用,在最终的变异路径图中不呈现;
所述的切点是一个编号,代表路径单元之间的连接,一个路径单元的尾部切点与另一个路径单元的首部切点编号相同,则这两个路径单元从左至右连接;
所述的变异路径图具有分辨率参数K,即变异路径图中,任意连续的(K-1)个字符(可以跨越路径片段)组成的序列不一致;若原始测序数据中,两个读段有(K-1)个连续字符相同,则这两个读段中的这两个(K-1)长度的片段覆盖变异路径图中的同一个长度为(K-1)个字符的路径,该路径可能跨越多个相互连接的路径片段。
3.根据权利要求1或2所述的测序数据的变异路径图的具体表示方法,其特征在于,当路径片段(或路径单元)的首或尾可连接至少两个路径片段(或路径单元)或不能连接任何路径片段(或路径单元)时,该路径片段(或路径单元)的首或尾切点称为一个路径的分叉点。
4.一种测序数据的变异路径图的具体生成方法,其特征在于,利用对切点的识别和追踪,建立“变异路径图中路径片段(或路径单元)的分叉点”、“变异路径图中路径片段序列内部对应于原始测序读段的起点或终点的位置(即路径单元的起点或终点)”与“原始测序读段内序列的位置坐标”之间的关联,利用这一关联实现高效的分布式拼接。
5.根据权利要求4所述的测序数据的变异路径图的具体生成方法,其特征在于,步骤为:首先扫描所有原始测序数据的读段序列,生成所有可能的长度为(K-1)的子序列,并记录该子序列左、右侧的字符,然后将这些长度为(K-1)的子序列聚类,依据每一类长度为(K-1)的子序列的左侧或右侧字符的可能性,识别切点在原始读段序列中的位置,将原始读段序列拆分成由切点标记首尾位置的小片段,再将这些小片段按首尾切点和序列归集,生成路径单元,然后将不分叉的路径单元首尾连接,形成路径片段,得到变异路径图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州新范式生物医药科技有限公司,未经杭州新范式生物医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110259459.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电流型光电转换器、装置及方法
- 下一篇:一种智能化照明控制系统及控制方法