[发明专利]一种序列比对的Seed处理方法、系统、装置及可读存储介质有效
申请号: | 201911089927.6 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110942809B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 赵健;史宏志;崔星辰 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘新雷 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 序列 seed 处理 方法 系统 装置 可读 存储 介质 | ||
1.一种序列比对的Seed处理方法,其特征在于,包括:
S11:在CAL表中查找待比对序列的Seed集中的每个Seed的候选比对位置;其中,所述Seed集包括待比对序列上的全部Seed,所述CAL表为按照预先设定的Seed的长度在参考序列上逐位移位并记录每个Seed在所述参考序列上的位置而建立的;
S12:利用所述Seed集中线性Seed的候选比对位置和线性Seed的Seed信息,将线性Seed重新拼接为新的Seed,得到拼接Seed,将拼接Seed替代线性Seed保存至所述Seed集,得到第一Seed集;其中,线性Seed为起始位置与其它Seed的起始位置相邻且与相邻Seed在所述待比对序列上的待比序列位置与在参考序列上的候选比对位置相对关系一致的Seed;
S13:从所述第一Seed集中筛选出所述待比对序列上覆盖所述待比对序列同一碱基片段碱基最长的最长Seed,得到最长Seed集;
S14:遍历所述第一Seed集,按照Seed的终止位置从大到小排列,从所述待比对序列上的每个目标碱基片段中筛选出覆盖目标碱基片段、每个Seed在所述参考序列中的出现次数之和小于等于预设的出现阈值且终止位置大于无效Seed的目标Seed,得到包括各目标碱基片段中的目标Seed的目标Seed集,以便后续利用经过筛选的所述最长Seed集和所述目标Seed集,以更少的数据量进行基因序列比对;
其中,目标碱基片段为以预设的覆盖宽度为长度,从所述待比对序列的起始位置开始划分的碱基片段;所述无效Seed为按照Seed的终止位置从大到小排列,在覆盖目标碱基片段的Seed中出现次数之和大于所述出现阈值的第一个Seed;所述目标Seed集不包括所述最长Seed集中的Seed;
其中,所述遍历所述第一Seed集,按照Seed的终止位置从大到小排列,从所述待比对序列上的每个目标碱基片段中筛选出覆盖目标碱基片段、每个Seed在所述参考序列中的出现次数之和小于等于预设的出现阈值且终止位置大于无效Seed的目标Seed,得到包括各目标碱基片段中的目标Seed的目标Seed集的过程,包括:
S141:判断待比对序列上目标碱基片段中是否有碱基N;
S142:若目标碱基片段中有碱基N,则以目标碱基片段中最后一个碱基N所在的下一个位置作为下一个目标碱基片段的新的起始位置,得到新的目标碱基片段,返回S141重新判断;
S143:若目标碱基片段中无碱基N,则遍历所述第一Seed集,按照Seed的终止位置从大到小排列,从所述待比对序列上的每个目标碱基片段中筛选出覆盖目标碱基片段、每个Seed在所述参考序列中的出现次数之和小于等于预设的出现阈值且终止位置大于无效Seed的目标Seed,作为当前目标碱基片段的目标Seed;
S144:以终止位置最小的目标Seed的终止位置的下一位置作为下一个目标碱基片段的新的起始位置,得到新的目标碱基片段,返回S141重新判断;
S145:若无目标Seed,则以目标碱基片段的起始位置加上所述覆盖宽度作为下一个目标碱基片段的新的起始位置,得到新的目标碱基片段,返回S141重新判断;
S146:重复S141至S145,直至所述待比对序列上的剩余未判断的碱基片段小于所述覆盖宽度,得到包括各目标碱基片段中的目标Seed的所述目标Seed集;
其中,所述遍历所述第一Seed集,按照Seed的终止位置从大到小排列,从所述待比对序列上的每个目标碱基片段中筛选出覆盖目标碱基片段、每个Seed在所述参考序列中的出现次数之和小于等于预设的出现阈值且终止位置大于无效Seed的目标Seed的过程,包括:
从所述第一Seed集中按照终止位置从大到小的排列顺序排列筛选出的覆盖目标碱基片段的Seed;
按照所述排列顺序依次判断筛选出的覆盖目标碱基片段的Seed的出现次数的总和是否超过所述出现阈值直至判断出所述无效Seed;
将终止位置大于所述无效Seed的Seed作为当前目标碱基片段的目标Seed。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911089927.6/1.html,转载请声明来源钻瓜专利网。