[发明专利]用于在基因组图中有效识别和提取序列路径的系统和方法在审
申请号: | 202080069634.6 | 申请日: | 2020-09-29 |
公开(公告)号: | CN114503206A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | Y·H·张 | 申请(专利权)人: | 皇家飞利浦有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘兆君 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 基因组 有效 识别 提取 序列 路径 系统 方法 | ||
1.一种用于由处理器生成并存储表示多个个体基因组的基因组图的方法,包括:
在数据存储装置中存储初始参考基因组序列;
接收要并入参考中的个体基因组;
根据所述参考基因组来识别所述个体基因组中的变化;
根据所述参考基因组来生成针对所述个体基因组中的每个变化的图边缘;
针对每个生成的图边缘生成:
边缘标识符,其唯一地标识所述基因组图中的当前边缘;
开始边缘标识符,其标识所述当前边缘从中分支的边缘;
开始位置,其指示在开始边缘上充当所述当前边缘的锚定点的位置;
结束边缘标识符,其标识所述当前边缘加入其中的边缘;
结束位置,其指示在结束边缘上充当所述当前边缘的锚定点的位置;
序列,其指示所述当前边缘的核苷酸序列;并且
在所述数据存储装置中存储针对每个生成的图边缘的所述边缘标识符、所述开始边缘标识符、所述开始位置、所述结束边缘标识符、所述结束边缘位置以及所述序列;
通过将所生成的边缘合并到现有参考中来创建扩展的图参考基因组;并且
重复该过程,直到生成所有个体基因组的边缘并将其并入结果得到的基因组图中为止。
2.根据权利要求1所述的方法,其中,针对每个生成的图边缘的所述边缘标识符、所述开始边缘标识符、所述开始位置、所述结束边缘标识符、所述结束边缘位置以及所述序列被存储为数据表中的行。
3.根据权利要求1所述的方法,还包括:
针对每个生成的图边缘生成指示所述序列的长度的长度;并且
在所述数据存储装置中存储所述长度。
4.根据权利要求3所述的方法,其中,针对每个生成的图边缘的所述边缘标识符、所述开始边缘标识符、所述开始位置、所述结束边缘标识符、所述结束边缘位置、所述序列以及所述长度被存储为数据表中的行。
5.根据权利要求4所述的方法,还包括:将针对所生成的边缘中的每个边缘的所述序列进行串联并将其存储在与所述数据表分开的序列数据结构中。
6.根据权利要求1所述的方法,还包括:在所述基因组图中指定路径,其中,所述路径是通过以下各项定义的:
指示所述路径的起点的位置,所述路径包括染色体标识符、所述边缘标识符以及碱基位置;
指示所述路径中的核苷酸的总数的路径长度;以及
踪迹,其包括由所述路径使用分隔符遍历的一连串边缘标识符。
7.根据权利要求6所述的方法,其中,使用一种分隔符符号来指代所有类型的边缘转变,或者使用多种分隔符符号来指代不同类型的边缘转变,所述不同类型的边缘转变例如为分支转变和端点转变。
8.根据权利要求6所述的方法,还包括:通过基于下一边缘的默认优先级的假设从所述踪迹中移除边缘标识符来简化所述踪迹。
9.根据权利要求1所述的方法,其中,所述边缘标识符包括组标识符和边缘索引,其中,所述组标识符标识一组相关边缘,并且所述边缘索引唯一地标识组内的边缘。
10.根据权利要求9所述的方法,其中,所述组标识符标识来自同一起源的一组边缘,所述同一起源例如为个体样本。
11.根据权利要求1所述的方法,还包括:通过添加以下额外的数据字段来延伸测序读取结果比对文件(SAM):
所述读取结果的开始部分被比对到的特定边缘的所述边缘标识符;
模板的下一读取结果被主要比对到的特定边缘的ENEXT标识符;
指示由所述读取结果被比对到的路径采用的边缘转变的经分隔的序列的踪迹;以及
指示由所述模板的所述下一读取结果被主要比对到的路径采用的边缘转变的经分隔的序列的TNEXT。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080069634.6/1.html,转载请声明来源钻瓜专利网。