[发明专利]一种序列比对的Seed处理方法、系统、装置及可读存储介质有效
申请号: | 201911089927.6 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110942809B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 赵健;史宏志;崔星辰 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘新雷 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 序列 seed 处理 方法 系统 装置 可读 存储 介质 | ||
本申请公开了一种序列比对的Seed处理方法、系统、装置及计算机可读存储介质,根据Seed在待比对序列上的待比序列位置和在参考序列上的候选比对位置,确定出Seed之间两种位置相对关系一致的线性Seed,将线性Seed进行拼接,得到新的拼接Seed,再从包括拼接Seed和非线性Seed的Seed集中筛选出覆盖待比对序列同一碱基片段碱基最长的最长Seed,进一步再从Seed集中筛选出待比对序列上的每个目标碱基片段中覆盖目标碱基片段且终止位置大于无效Seed的Seed,得到综合各目标碱基片段的目标Seed得到目标Seed集,目标Seed集不包括最长Seed集中的Seed,综合减少后续序列比对算法进行扩展时使用的Seed数量,从而减少比对系统的计算量,提高基因序列比对的匹配精度和处理性能。
技术领域
本发明涉及计算机技术与生物基因技术相关联的交叉学科领域,特别涉及一种序列比对的Seed处理方法、系统、装置及计算机可读存储介质。
背景技术
随着生物基因检测技术的迅速发展,提取个人的基因进行基因序列的比对,预测罹患多种疾病的可能性,锁定个人病变的基因,提前预防和治疗,愈发成熟。人类基因库目前约为30亿个碱基对,采用通用的计算机软件处理平台完成一个人的基因序列比对需要几天。传统的CPU处理平台已经不能满足对基因比对结果的快速,实时获取需求。基因序列比对对平台的计算性能需求越来越高,GPU、FPGA等各种高性能加速器被逐渐应用其中。
基于Seed的序列匹配方法(Seed,种子,待比对序列上的一段子序列),为了提高序列比对的精度,需要尽可能的找到待比对序列(read)的Seed在参考序列中出现的位置,因此Seed的长度通常较短。但是,这样的Seed在参考序列上命中次数就会很多,又对序列比对的性能带来极大的挑战。很多Seed可以在Seed扩展之前被过滤掉,这样会极大减轻后续扩展模块的工作负载。
为此,需要对前期的Seed进行高效的过滤处理,尽可能多地过滤掉无效的匹配位置,提高整体的序列比对处理速度和效率,同时保证系统的比对精度。
发明内容
有鉴于此,本发明的目的在于提供一种序列比对的Seed处理方法、系统、装置及计算机可读存储介质,提高整体的序列比对处理速度和效率,同时保证系统的比对精度。其具体方案如下:
一种序列比对的Seed处理方法,包括:
S11:在CAL表中查找待比对序列的的Seed集中的每个Seed的候选比对位置;其中,所述Seed集包括待比对序列上的全部Seed,所述CAL表为按照预先设定的Seed的长度在所述参考序列上逐位移位并记录每个Seed在所述参考序列上的位置而建立的;
S12:利用所述Seed集中线性Seed的候选比对位置和线性Seed的Seed信息,将线性Seed重新拼接为新的Seed,得到拼接Seed,将拼接Seed替代线性Seed保存至所述Seed集,得到第一Seed集;其中,线性Seed为起始位置与其它Seed的起始位置相邻且与相邻Seed在所述待比对序列上的待比序列位置与在参考序列上的候选比对位置相对关系一致的Seed;
S13:从所述第一Seed集中筛选出所述待比对序列上覆盖所述待比对序列同一碱基片段碱基最长的最长Seed,得到最长Seed集;
S14:遍历所述第一Seed集,按照Seed的终止位置从大到小排列,从所述待比对序列上的每个目标碱基片段中筛选出覆盖目标碱基片段、每个Seed在所述参考序列中的出现次数之和小于等于预设的出现阈值且终止位置大于无效Seed的目标Seed,得到包括各目标碱基片段中的目标Seed的目标Seed集,以便后续利用经过筛选的所述最长Seed集和所述目标Seed集,以更少的数据量进行基因序列比对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911089927.6/2.html,转载请声明来源钻瓜专利网。