[发明专利]一种蛋白质鉴定方法有效
申请号: | 201110441720.8 | 申请日: | 2011-12-26 |
公开(公告)号: | CN103177198B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 周若;闻博;汪建;王俊;杨焕明 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 北京北翔知识产权代理有限公司 11285 | 代理人: | 张广育;姜建成 |
地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 鉴定 方法 | ||
技术领域
本发明涉及蛋白质鉴定领域。更具体而言,本发明涉及基于数据库的蛋白质搜索鉴定方法。本发明还涉及一种构建用于蛋白质搜索鉴定的数据库的方法。
背景技术
随着近十年来基因组学(Genomics)及基因测序技术的快速发展,对基因产物蛋白质的研究也逐渐进入了生物学家的视野里,一个与基因组(Genome)对应的名词“蛋白质组(Proteome)”应运而生。蛋白质组是指一个基因组对应的所有蛋白质,或者是细胞、组织在特定条件和时间下表达的所有蛋白质。蛋白质组学(Proteomics)是指研究蛋白质组的组成、结构、性质与功能的学科。蛋白质的鉴定是整个蛋白质组学最基础和关键的。
目前,可以高通量鉴定蛋白质的基于质谱的技术主要有以下两种:基于数据库的蛋白质搜索鉴定方法和不需要数据库的蛋白质从头自主(denovo)鉴定方法。其中后者对质谱数据精度要求极高而尚未得到广泛应用。在基于数据库的蛋白质鉴定方法中,首先将蛋白质样品蛋白酶水解成多肽混合物,然后经过液相色谱分离并被离子化,进入质谱后,经过电子转移裂解(ETD)或碰撞诱导裂解(CID)裂解,形成肽段碎片离子进行二级质谱,产生实验的二级质谱图;同时将数据库中的蛋白质经过蛋白质质谱鉴定软件通过计算机进行理论的蛋白酶解、电离、碎裂、质谱,产生理论的二级质谱图。然后,将理论的二级质谱图和实验的二级质谱图进行相似性的谱图打分,选取得分最高的理论谱对应的肽段作为实验的质谱图的匹配肽段。再将这些匹配肽段合并得到对应的蛋白质。
由以上基于数据库的蛋白质鉴定方法可以看出,该方法高度依赖于数据库,在数据库中没有的蛋白是无法通过该方法鉴定。目前,有大量生物未被测序,其蛋白数据并不完备甚至很少,对基于数据库的蛋白质鉴定方法造成很大局限。
发明内容
为了克服上述蛋白数据不足带来的缺陷,发明人提供了一种基于EST(表达序列标签)序列的蛋白鉴定方法。
在本发明的第一方面,本发明提供了一种基于EST序列的蛋白鉴定方法,步骤包括:
1)使蛋白质样品成多肽片段的混合物并进行质谱,产生质谱图;
2)将相应物种的EST序列数据根据密码子原则六框翻译成EST氨基酸序列,形成EST氨基酸序列库;
3)将上述质谱图相对于上述EST氨基酸序列库进行数据库搜索,对于每一张质谱图,如果有搜索结果,将搜索到的EST氨基酸序列组成一个组;
4)将同一组中的EST氨基酸序列对应的EST序列进行拼接,具有重叠部分的EST序列拼接成更长的大片段,经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体;
5)将一组中的大片段和单体分别比对到蛋白质数据库(优选地,动物的数据与所有动物的蛋白质数据库比对,植物的数据就与所有植物的蛋白质数据库比对),对每个大片段和单体挑选比对分值最高且大于第一阈值的蛋白质,确定该组对应于一个蛋白或几个蛋白;
6)若是一组里的大片段和单体若比对到不同蛋白,将大片段对应的蛋白与其他单体进行比对,若比对分值满足第二阈值,则认为该组代表所述大片段对应的蛋白;
7)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。
在本发明的第二方面,本发明还提供了一种基于蛋白质数据库和EST序列的蛋白鉴定方法,步骤包括:
1)使蛋白质样品成多肽片段的混合物并进行质谱,产生质谱图;
2)将相应物种的EST数据序列根据密码子原则六框翻译成EST氨基酸序列,形成EST氨基酸序列库;
3)将上述质谱图相对于第一蛋白质数据库进行数据库搜索,对于每一张质谱图,如果有搜索结果,搜索到的蛋白即为对该质谱图鉴定到的蛋白;
4)将其他质谱图相对于上述EST氨基酸序列库进行数据库搜索,对于每一张质谱图,如果有搜索结果,将搜索到的EST氨基酸序列组成一个组;
5)将同一组中的EST氨基酸序列对应的EST序列进行拼接,具有重叠部分的EST序列拼接成更长的大片段,经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体;
6)将一组中的大片段和单体分别比对到第二蛋白质数据库(优选地,动物的数据与所有动物的蛋白质数据库比对,植物的数据就与所有植物的蛋白质数据库比对),对每个大片段和单体挑选比对分值最大且大于第一阈值的蛋白质,确定该组对应于一个蛋白或几个蛋白;
7)若是一组里的大片段和单体若比对到不同蛋白,将大片段对应的蛋白与其他单体进行比对,若比对分值满足第二阈值,则认为该组代表所述大片段对应的蛋白;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110441720.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:服务器密码保护方法与装置
- 下一篇:一种齿轮齿面摩擦因数的反求方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用