[发明专利]一种用后缀数组加速大规模蛋白质鉴定的方法及其系统有效
申请号: | 201010546475.2 | 申请日: | 2010-11-15 |
公开(公告)号: | CN102467616A | 公开(公告)日: | 2012-05-23 |
发明(设计)人: | 周郴;迟浩;王乐珩;李由;吴研洁;付岩;孙瑞祥;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 后缀 数组 加速 大规模 蛋白质 鉴定 方法 及其 系统 | ||
1.一种用后缀数组加速大规模蛋白质鉴定的方法,其特征在于,包括:
步骤1,根据数据库中的蛋白质序列创建相应的后缀数组,并根据所述后缀数组推断与所述蛋白质序列相应的最长公共前缀;
步骤2,基于最长公共前缀和酶切规则,对所述蛋白质序列进行在线酶切,得到非冗余肽;
步骤3,根据串联质谱、所述非冗余肽进行肽谱匹配鉴定,并利用鉴定到的肽推断对应的蛋白质序列。
2.根据权利要求1所述的用后缀数组加速大规模蛋白质鉴定的方法,其特征在于,
所述步骤1中,还包括:
根据酶切的类型确定是否需要对所述最长公共前缀的值进行调整,当酶切的类型为特异性酶切时,则需要对所述最长公共前缀的值进行调整。
3.根据权利要求2所述的用后缀数组加速大规模蛋白质鉴定的方法,其特征在于,
所述步骤1中,还包括:
将所述最长公共前缀的值调整为符合特异性酶切规则的后缀间的最长公共前缀的值,并把符合特异性酶切规则的后缀作为特殊后缀。
4.根据权利要求2或3所述的用后缀数组加速大规模蛋白质鉴定的方法,其特征在于,
所述步骤1中,当酶切的类型为C端特异性Trypsin酶切时,还包括:
当所述后缀的前一个字符是K或R,或所述后缀为蛋白质序列本身时,所述后缀为特殊后缀,将所述后缀间的最长公共前缀的值调整为特殊后缀间的最长公共前缀的值。
5.根据权利要求3所述的用后缀数组加速大规模蛋白质鉴定的方法,其特征在于,
对每一个所述后缀数组的后缀,将所述最长公共前缀的值调整为所述特殊后缀之间最长公共前缀的值。
6.根据权利要求4所述的用后缀数组加速大规模蛋白质鉴定的方法,其特征在于,
所述步骤2中,当酶切的类型为N端特异性Trypsin酶切时,还包括:
反转所述蛋白质序列,按照C端特异性酶切的方式产生合法的子串,再反转该子串得到合法的肽。
7.根据权利要求2、3、5或6所述的用后缀数组加速大规模蛋白质鉴定的方法,其特征在于,
所述步骤1中,当酶切的类型为非特异性酶切时,还包括:
对于每一个i∈[0,n),后缀Suffix[i]的部分前缀作为整个输入的字符串的子串,该部分前缀是从长度区间为(LCP[i]+1)到整个后缀Suffix[i]长度的前缀;
其中,n为数据库中的蛋白质序列的长度,i为数据库中蛋白质序列第i个位置,Suffix[i]为蛋白质序列第i个后缀,LCP[i]为Suffix[i]对应的最长公共前缀。
8.一种用后缀数组加速大规模蛋白质鉴定的系统,其特征在于,包括:
最长公共前缀模块,用于根据数据库的蛋白质序列创建相应的后缀数组,并根据所述后缀数组推断与所述蛋白质序列相应的最长公共前缀;
非冗余肽获取模块,连接所述最长公共前缀模块,用于基于所述最长公共前缀和酶切规则,对所述蛋白质序列进行在线酶切,得到非冗余肽;
蛋白质序列推断模块,连接所述非冗余肽获取模块,用于根据串联质谱、所述非冗余肽进行肽谱匹配鉴定,并利用鉴定到的肽推断对应的蛋白质序列。
9.根据权利要求8所述的用后缀数组加速大规模蛋白质鉴定的系统,其特征在于,
所述最长公共前缀模块,还用于根据酶切的类型确定是否需要对所述最长公共前缀的值进行调整,如酶切的类型为特异性酶切时,则需要对所述最长公共前缀的值进行调整,并将所述最长公共前缀的值调整为符合特异性酶切规则的后缀间的最长公共前缀的值,并把符合特异性酶切规则的后缀作为特殊后缀。
10.根据权利要求8或9所述的用后缀数组加速大规模蛋白质鉴定的系统,其特征在于,
所述最长公共前缀模块,包括:
后缀数组创建模块,用于为所述数据库中的蛋白质序列创建所述后缀数组;
LCP推导模块,连接所述后缀数组创建模块,用于根据所述后缀数组推导出所述最长公共前缀。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010546475.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:由苯和丙烯生产异丙苯的方法
- 下一篇:一种蜡质控温阀用温敏介质的制备方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用