[发明专利]一种基于布隆过滤器的锚点筛选方法、装置和计算机设备有效
申请号: | 202111041904.5 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113782097B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 张昂;廖湘科;崔英博;杨灿群;黄春;唐滔;彭林;夏泽宇 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B20/30 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 徐志宏 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 过滤器 筛选 方法 装置 计算机 设备 | ||
本申请涉及一种基于布隆过滤器的锚点筛选方法、装置和计算机设备。所述方法包括:根据预先定位到的锚点,选取查询序列和参考序列在两个锚点之间的片段为查询序列片段和参考序列片段,分别对参考序列片段和查询序列片段按照预设长度生成多个连续重叠的子片段,通过预设的多个哈希函数建立索引,将参考序列子片段映射到布隆过滤器的位向量中,再根据索引查询,当查询序列子片段在参考序列中不存在时,判断查询序列子片段未通过筛选;遍历查询序列片段中所有查询序列子片段,统计未通过筛选的查询序列子片段的总数,当大于预设阈值时,剔除左侧锚点;遍历所有锚点,直到完成锚点筛选。本发明可以提高DNA序列比对的精度和速度。
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于布隆过滤器的长读DNA序列比对锚点筛选方法、装置和计算机设备。
背景技术
第三代测序属于单分子检测技术,无需对模板进行扩增,避免了聚合酶链式反应带来的碱基偏好性。而且,三代测序的读长更长,能够发现二代测序无法发现的基因组重复片段和结构变异等信息,在基因组组装、结构变异检测和基因组重测序等领域都取得了新的突破。
序列比对是测序数据分析中基础而重要的环节,比对的结果是其他步骤的前提。不同于面向二代短读序列的比对算法,实现三代长读序列的快速准确比对面临读段长度更长和测序错误率更高等方面的挑战。针对这一问题,三代长读序列比对大多采用启发式方法,即“种子-扩展”,其思想是先从读段和参考基因组中选取一些短片段作为种子;再通过种子的精确匹配进行锚点定位,将比对范围由整个基因组缩小至部分候选区域;最后利用动态规划方法,对候选区域进行碱基比对,细化比对结果,实现扩展验证。因此,序列比对算法主要包括种子生成、锚点定位和碱基比对三个步骤。
由于测序错误和基因组本身的局部同源性,现有比对工具在全局定位时会定位到一些错误的锚点,对这些错误锚点之间的片段进行比对,将会产生次优结果甚至错误结果。而且,这些错误锚点同样需要进行扩展验证,会带来大量无用的计算,在影响比对精度的同时也降低了速度。
发明内容
基于此,有必要针对上述技术问题,提供一种能够剔除错误锚点的基于布隆过滤器的长读DNA序列比对锚点筛选方法、装置、计算机设备和存储介质。
一种基于布隆过滤器的锚点筛选方法,所述方法包括:
获取待比对的查询序列、参考序列以及预先定位得到的多个锚点;所述查询序列为长读DNA序列;
选取所述查询序列在第一锚点和第二锚点之间的片段为查询序列片段,选取所述参考序列在所述第一锚点和所述第二锚点之间的片段为参考序列片段;
根据所述参考序列片段按照预设长度生成多个连续重叠的参考序列子片段,根据所述查询序列片段按照所述预设长度生成多个连续重叠的查询序列子片段;
通过预设的多个哈希函数建立索引,将所述参考序列子片段映射到布隆过滤器的位向量中;
根据所述索引查询所述参考序列中是否存在所述查询序列子片段,当所述查询序列子片段在所述参考序列中不存在时,判断所述查询序列子片段未通过筛选;
遍历所述查询序列片段中所有查询序列子片段,并统计未通过筛选的查询序列子片段的累计值,当所述累计值大于预设阈值时,剔除所述第一锚点;
遍历所有锚点,直到完成所述所有锚点的筛选。
在其中一个实施例中,还包括:在根据所述参考序列片段按照预设长度生成多个连续重叠的参考序列子片段,根据所述查询序列片段按照所述预设长度生成多个连续重叠的查询序列子片段之前,删除所述查询序列片段和所述参考序列片段两端相同的部分,对所述查询序列片段和所述参考序列片段进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111041904.5/2.html,转载请声明来源钻瓜专利网。