[发明专利]一种可得到完全解的生物序列局部比对方法有效

专利信息
申请号: 201210196668.9 申请日: 2012-06-14
公开(公告)号: CN102750461A 公开(公告)日: 2012-10-24
发明(设计)人: 杨晓春;王斌;刘洪磊;王佳英 申请(专利权)人: 东北大学
主分类号: G06F19/22 分类号: G06F19/22
代理公司: 沈阳东大专利代理有限公司 21109 代理人: 李运萍
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 可得到 完全 生物 序列 局部 方法
【说明书】:

技术领域

发明属于数据库和生物信息学领域,具体涉及一种可得到完全解的生物序列局部比对方法。

背景技术

在生物信息学研究中,经常需要将获得的基因或蛋白质序列(设为P)与已知的生物序列(设为T)进行比对。在很多时候,T和P从整体来看也许并不相似,然而二者却可能包含非常相似的子序列。局部比对的目的就是要找出这类具有高度相似性的子序列。局部比对技术在生物信息学研究中有重要的应用,例如可用于基因和蛋白功能研究、物种同源性研究等。将两条不同的基因序列进行局部比对,通过分析二者相似的子序列,从而找出两条基因序列中具有相似功能的基因片段。通过把新发现的蛋白序列同功能已知的蛋白序列作比对,则可以推测新蛋白的功能,指导新药的开发。在不同的物种中,特定基因的序列变异可用于研究物种之间的同源性。将两个物种的基因进行局部比对时,错配与突变相应,空位与插入或缺失对应,比对的结果可用于判断基因的相似度,此外也可以在基因组层面比较序列的相同与差异之处,将结果用于构建进化树。因此,探索生物序列的局部相似性具有非常重要的意义。如何能够准确快速的进行局部比对人们提出了挑战。目前已有的较为经典的算法包括Smith-Waterman、FASTA、BLAST等。

Smith-Waterman基于动态规划的思想,算法考虑两个序列中任意长度的子串,在计算得分的过程中允许匹配、不匹配和插入空格的操作。用这种方法得到的比对也是局部比对中得分最高者。该方法的时间和空间复杂度都是O(mn),其中m和n分别是P和T的长度。尽管该方法能够找到所有符合条件的结果,但是时间和空间上消耗都太大,以至于很少在实际中应用。

FASTA是一种经典的、基于启发式算法的生物序列局部比对工具,其基本思路是首先在T中精确匹配很短的序列片段K-tuple,之后采用启发式算法将构成的动态规划矩阵中同一或相邻对角线中位置相近的片段连接起来,构成局部比对结果。该方法虽有较高的效率,但并不能保证得到所有符合条件的结果。

BLAST是一种经典且非常流行的生物序列局部比对工具。与FASTA相似,BLAST也是基于启发式算法。首先在T和P中定位匹配程度超过一定阈值的短片段对segment pair,然后从这些位置开始向左右扩展得到满足给定阈值的局部比对结果。该方法虽然具有很高的效率,但同样不能保证找到所有符合条件的结果。

发明内容

针对现有技术存在的不足,本发明提供一种可得到完全解的生物序列局部比对方法,利用BWT索引,结合过滤和重用技术,得到生物序列局部比对的完全解。

本发明采用一组广泛应用的得分模式,在这组得分模式中,匹配得分是指若两个对应字符相同则为一个匹配(match),每一个匹配(match)得Sa分,不匹配得分是指若两个对应字符不相同,即需进行替换操作,则为一个不匹配(mismatch),不匹配得Sb分,若需进行插入或删除操作,则插入一个gap(连续插入r个空格)得分为Sg+r×Ss,其中Sg是gap起始罚分(gap opening penalty),即每插入一个gap需罚相应的分数,Ss是gap扩展罚分(gap extension penalty),也就是每插入一个空格罚Ss分。Sa为正分,Sb,Sg和Ss均为负分。

本发明方法包含以下步骤:

步骤1:采用一种生物序列作为基准序列T,另一种生物序列作查询序列P;

步骤2:进行基准序列的后缀树分支与查询序列的比对,步骤如下:

步骤2.1:设定匹配得分Sa,不匹配得分Sb,起始罚分Sg,扩展罚分Ss,分数阈值H;

步骤2.2:对基准序列T的逆序列T-1构建BWT索引;

BWT最早应用在数据压缩方面,对一个字符串进行BWT变换后并不改变字符串中字符的值,只是将它们的位置进行了改变。本方法通过BWT索引模拟后缀树遍历,构建BWT索引,步骤如下:

步骤2.2.1:在T-1的末尾增加一特殊字符$,使该字符小于T-1序列中所有字符;

步骤2.2.2:对T-1的后缀数组按字典序进行排序;

步骤2.2.3:建立数组SA,使其代表排序后的后缀数组中第i个位置的子序列在T-1中出现的开头位置;

步骤2.2.4:经过上述BWT变换后得到的序列的第i个字符BWT[i]=T-1[SA[i]-1],若SA[i]-1=0,则BWT[i]=$;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210196668.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top