[发明专利]一种基于条形码序列的读长比对方法和装置有效
申请号: | 202010228801.9 | 申请日: | 2020-03-27 |
公开(公告)号: | CN113449533B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 张通达;李建标;郭健;陈芳;朱师达 | 申请(专利权)人: | 深圳华大生命科学研究院 |
主分类号: | G16B50/00 | 分类号: | G16B50/00;G16B30/00;G06K7/14 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 彭家恩;罗瑶 |
地址: | 518083 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 条形码 序列 方法 装置 | ||
一种基于条形码序列的读长比对方法和装置,该方法包括:将含有条形码序列的测序读长比对到参考基因组得到每个读长的初始比对位置;根据重复数据库对每个读长的初始比对位置进行判定,初始比对位置在重复数据库内的读长判定为比对到重复区域;对于比对到重复区域的读长,找到与该读长具有相同的条形码序列但比对到非重复区域位置的读长,然后从具有相同的条形码序列并比对到重复区域的读长中挑选与非重复区域位置之间的距离不超过建库最大插入片段长度的读长,以其比对位置作为具有该条形码序列的读长的真正比对位置。本发明对于预判定为比对不准确的读长,根据具有相同条形码序列的读长的正确比对位置来调整重复区域的位置,以改进比对的准确性。
技术领域
本发明涉及序列比对技术领域,尤其涉及一种基于条形码序列的读长比对方法和装置。
背景技术
带有条形码序列(barcode)的测序读长(reads),由于多了一些序列信息,理论上能够比常规二代测序读长提供更多信息。但是,实际序列分析中较多还是用常规二代比对算法。
考虑到条形码序列的比对算法,如Lariat算法和EMA算法也只是把相同条形码序列的测序读长当成整体进行比对优化。重复区域内的数据会很容易比对错位置。
例如,出自论文《Ariya Shajii1,et al.Latent variable model for aligningbarcoded short-reads improves downstream analyses.Res Comput MolBiol.2018April;10812:280–282》的EMA算法,方法示意图如图1所示。流程包括:(A)带标签读段测序的理想模型是,一些数量的未知来源的DNA片段,在一个微滴或小室中被修剪、带上标签,并通过测序获得带有标签的读段;(B)EMA的“读段云”是由一群带有共同的标签且比对到基因组邻近位置的读段组成,然后EMA通过比对将“读段云”区分成一个个互斥的组,如果有一个读段能同时比对到两个读段云,那么这两个读段云是关联的。这些关联的部分对应来源于同样DNA片段的读段的可变的基因组比对的多种可能性。EMA的潜在变量模型将对每个关联的成分进行单独的优化,以推论属于共有barcode的哪个片段。(C)EMA对包含多个比对位置的读段的读段云应用一个新的读段密度优化算法,具体方法是同时通过读段云内的和读段密度进行优化,基因组的绿色区域是高度同源的,会导致同一个读段云内的reads有多个基因组比对的位置。(D)当对一个读段云内进行读段密度优化,EMA的潜在变量模型优化会确定一个特定的read的在不同读段云之间的最佳比对位置,而且不仅仅只有最终的比对结果,还有可转译的比对可能性。。
出自论文《Alex Bishara,et al.Read clouds uncover variation in complexregions ofthe human genome.Genome Res.201525:1570-1580》的Lariat算法,方法示意图如图2所示。流程包括:通过短读长比对工具分别对每个读长进行比对,以确定打断片段候选位置以及确定比对到长片段的多个候选短读长位置。最后,执行MAP推断以确定最佳比对。在此示例中,RFA成功地确定打断源长片段重叠的正确重复拷贝R。
带有相同条形码序列的读长一起比对是一个较好的方案,对于比较短的重复区域能比对准确。但是对于较长的重复区域依然会比对错误。单纯依靠统计算法并不足以发挥条形码序列的潜力。
发明内容
本发明的目的在于提供一种基于条形码序列的读长比对方法和装置,使用重复数据库预先判定初始比对的准确性,对于预先判定为比对不准确的读长,根据具有相同条形码序列的读长的正确比对位置来调整重复区域的位置,以改进比对的准确性。
根据本发明的第一方面,本发明提供一种基于条形码序列的读长比对方法,包括:
将含有条形码序列的测序读长比对到参考基因组,得到每个读长的初始比对位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大生命科学研究院,未经深圳华大生命科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010228801.9/2.html,转载请声明来源钻瓜专利网。