[发明专利]一种可得到完全解的生物序列局部比对方法有效
申请号: | 201210196668.9 | 申请日: | 2012-06-14 |
公开(公告)号: | CN102750461A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 杨晓春;王斌;刘洪磊;王佳英 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 沈阳东大专利代理有限公司 21109 | 代理人: | 李运萍 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 可得到 完全 生物 序列 局部 方法 | ||
技术领域
本发明属于数据库和生物信息学领域,具体涉及一种可得到完全解的生物序列局部比对方法。
背景技术
在生物信息学研究中,经常需要将获得的基因或蛋白质序列(设为P)与已知的生物序列(设为T)进行比对。在很多时候,T和P从整体来看也许并不相似,然而二者却可能包含非常相似的子序列。局部比对的目的就是要找出这类具有高度相似性的子序列。局部比对技术在生物信息学研究中有重要的应用,例如可用于基因和蛋白功能研究、物种同源性研究等。将两条不同的基因序列进行局部比对,通过分析二者相似的子序列,从而找出两条基因序列中具有相似功能的基因片段。通过把新发现的蛋白序列同功能已知的蛋白序列作比对,则可以推测新蛋白的功能,指导新药的开发。在不同的物种中,特定基因的序列变异可用于研究物种之间的同源性。将两个物种的基因进行局部比对时,错配与突变相应,空位与插入或缺失对应,比对的结果可用于判断基因的相似度,此外也可以在基因组层面比较序列的相同与差异之处,将结果用于构建进化树。因此,探索生物序列的局部相似性具有非常重要的意义。如何能够准确快速的进行局部比对人们提出了挑战。目前已有的较为经典的算法包括Smith-Waterman、FASTA、BLAST等。
Smith-Waterman基于动态规划的思想,算法考虑两个序列中任意长度的子串,在计算得分的过程中允许匹配、不匹配和插入空格的操作。用这种方法得到的比对也是局部比对中得分最高者。该方法的时间和空间复杂度都是O(mn),其中m和n分别是P和T的长度。尽管该方法能够找到所有符合条件的结果,但是时间和空间上消耗都太大,以至于很少在实际中应用。
FASTA是一种经典的、基于启发式算法的生物序列局部比对工具,其基本思路是首先在T中精确匹配很短的序列片段K-tuple,之后采用启发式算法将构成的动态规划矩阵中同一或相邻对角线中位置相近的片段连接起来,构成局部比对结果。该方法虽有较高的效率,但并不能保证得到所有符合条件的结果。
BLAST是一种经典且非常流行的生物序列局部比对工具。与FASTA相似,BLAST也是基于启发式算法。首先在T和P中定位匹配程度超过一定阈值的短片段对segment pair,然后从这些位置开始向左右扩展得到满足给定阈值的局部比对结果。该方法虽然具有很高的效率,但同样不能保证找到所有符合条件的结果。
发明内容
针对现有技术存在的不足,本发明提供一种可得到完全解的生物序列局部比对方法,利用BWT索引,结合过滤和重用技术,得到生物序列局部比对的完全解。
本发明采用一组广泛应用的得分模式,在这组得分模式中,匹配得分是指若两个对应字符相同则为一个匹配(match),每一个匹配(match)得Sa分,不匹配得分是指若两个对应字符不相同,即需进行替换操作,则为一个不匹配(mismatch),不匹配得Sb分,若需进行插入或删除操作,则插入一个gap(连续插入r个空格)得分为Sg+r×Ss,其中Sg是gap起始罚分(gap opening penalty),即每插入一个gap需罚相应的分数,Ss是gap扩展罚分(gap extension penalty),也就是每插入一个空格罚Ss分。Sa为正分,Sb,Sg和Ss均为负分。
本发明方法包含以下步骤:
步骤1:采用一种生物序列作为基准序列T,另一种生物序列作查询序列P;
步骤2:进行基准序列的后缀树分支与查询序列的比对,步骤如下:
步骤2.1:设定匹配得分Sa,不匹配得分Sb,起始罚分Sg,扩展罚分Ss,分数阈值H;
步骤2.2:对基准序列T的逆序列T-1构建BWT索引;
BWT最早应用在数据压缩方面,对一个字符串进行BWT变换后并不改变字符串中字符的值,只是将它们的位置进行了改变。本方法通过BWT索引模拟后缀树遍历,构建BWT索引,步骤如下:
步骤2.2.1:在T-1的末尾增加一特殊字符$,使该字符小于T-1序列中所有字符;
步骤2.2.2:对T-1的后缀数组按字典序进行排序;
步骤2.2.3:建立数组SA,使其代表排序后的后缀数组中第i个位置的子序列在T-1中出现的开头位置;
步骤2.2.4:经过上述BWT变换后得到的序列的第i个字符BWT[i]=T-1[SA[i]-1],若SA[i]-1=0,则BWT[i]=$;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210196668.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:SATA电连接器及电连接器组合
- 下一篇:一种基于手持设备的大屏幕交互方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用