[发明专利]第三代测序比对算法在审
申请号: | 201780010771.0 | 申请日: | 2017-02-10 |
公开(公告)号: | CN108699601A | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | W·H·王;P·T·阿夫沙尔 | 申请(专利权)人: | 斯坦福大学托管董事会 |
主分类号: | C12Q1/6874 | 分类号: | C12Q1/6874;G06F19/28;G06F19/22 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 张小勇 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 读取 参考序列 比对算法 第三代 映射 比对 测序 聚体 | ||
公开用于将读取序列与参考序列比对的方法、软件和系统。在某些实施例中,所述方法、软件和系统涉及确定在所述读取序列的区域和所述参考序列的区域之间的k‑聚体的分布的相似性以便确定所述读取序列的所述区域是否映射到所述参考序列的所述区域。
本申请要求2016年2月11日提交的美国临时专利申请第62/294,205号的权益,所述申请以全文引用的方式并入本文中。
本发明是在政府支持下在由美国国家卫生研究院(National Institutes ofHealth)授予的合同R01HG007834下进行。政府对本发明拥有一定的权利。
背景技术
全基因组测序已彻底改变生物和医学驱动的全面表征DNA序列变化、多种物种的重新测序、微生物群落的测序、检测基因组的甲基化区域、定量转录丰度、表征存在于给定样品中的基因的不同同工型、识别mRNA转录物有效地平移的程度等。实际上,药物基因组学领域由于患者基因组序列信息的增加的可获得性而以指数方式扩增。
第一和第二代测序技术以相对低成本提供巨大吞吐量。第三代测序(TGS)技术为基于单分子测序(SMS)的测序方的下一种重要技术。与第一和第二代测序技术相比,TGS工具产生较长读段,但是测序其受主要呈插入和缺失(插入缺失)形式的较高错误率困扰。
测序DNA的过程包含三个基本阶段,包括样品制备、物理测序和任选地比对,和/或重新组装。样品制备涉及使测序的基因组片段化和扩增片段。在测序期间,依次识别在每个片段中各个碱基,创建各个读段。然后利用包含算法的生物信息学软件以比对重叠的读段,这允许原始基因组组装成连续序列。
目前,用于将各个长读段与参考序列或数据集比对的常用算法基于种子和延伸概念的修改型式。这类方法通常通过寻找在查询和参考序列之间的精确匹配起始,然后大量寻找理想种子链并且使用动态编程借助任选的急下降启发法将其延伸以避免在差区域上延伸。
在本公开中提供的方法、软件和系统提供鲁棒的定位读段的测序位置的方法,从而实现比对和组装可包含畸变(如插入和/或缺失)的序列读段。
发明内容
本公开提供用于将读取序列与参考序列比对的方法、系统、可实行软件产品和存储装置。在某些实施例中,公开用于将读取序列与参考序列片段比对的方法。方法可包含创建用于读取序列的窗口和用于参考序列片段的,其中窗口具有相同长度;计算在每个窗口内独特k-聚体出现的数量,基于在每个窗口内独特k-聚体出现的数量,计算k-聚体计数相似性值;对于跨读取序列的多个窗口和跨参考序列片段的多个窗口迭代地执行步骤(a)到(c),由此计算多个k-聚体计数相似性值,其中在读取序列和参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d;通过求多个k-聚体计数相似性值的平均值,计算相似性评分;和当相似性评分高于阈值时,将读取序列与参考序列片段比对,其中将在步骤(a)的第一次执行中创建的窗口放置在每个序列的起始处。
在某些实施例中,方法可包含对于读取序列和参考序列的不同片段重复步骤(a)到(f)。
在某些实施例中,参考序列片段可为从基因组数据库获得的参考序列的区域。在某些实施例中,参考序列可为读取序列。在某些实施例中,参考序列可为从测序与获得读取序列的序列相同样品获得的读取序列。
在某些实施例中,窗口中的每一个的长度可为至少50个碱基。在某些实施例中,窗口中的每一个的长度可为在1-10,000个碱基范围内的任何整数值,其中长度保持恒定。
在某些实施例中,距离d可为至少10个碱基长。在某些实施例中,距离d的长度可在1-500个碱基范围内,其中d保持恒定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯坦福大学托管董事会,未经斯坦福大学托管董事会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780010771.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:改进的新一代测序
- 下一篇:鉴定男性能育性状态和胚胎质量的方法