[发明专利]一种蛋白质鉴定方法有效
申请号: | 201110441720.8 | 申请日: | 2011-12-26 |
公开(公告)号: | CN103177198B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 周若;闻博;汪建;王俊;杨焕明 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 北京北翔知识产权代理有限公司 11285 | 代理人: | 张广育;姜建成 |
地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 鉴定 方法 | ||
1.一种基于EST序列的蛋白鉴定方法,步骤包括:
1)使蛋白质样品成多肽片段的混合物并进行质谱,产生质谱图;
2)将相应物种的EST序列数据根据密码子原则六框翻译成EST氨基酸序列,形成EST氨基酸序列库;
3)将上述质谱图相对于上述EST氨基酸序列库进行数据库搜索,对于每一张质谱图,如果有搜索结果,将搜索到的EST氨基酸序列组成一个组;
4)将同一组中的EST氨基酸序列对应的EST序列进行拼接,具有重叠部分的EST序列拼接成更长的大片段,经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体;
5)将一组中的大片段和单体分别比对到蛋白质数据库,对每个大片段和单体挑选比对分值最高且大于第一阈值的蛋白质,确定该组对应于一个蛋白或几个蛋白,其中所述第一阈值是1e-5至1e-30;
6)若是一组里的大片段和单体若比对到不同蛋白,将大片段对应的蛋白与其他单体进行比对,若比对分值满足第二阈值,则认为该组代表所述大片段对应的蛋白,其中所述第二阈值是1e-10至1e-50;
7)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。
2.权利要求1的方法,其中所述蛋白质数据库是样品来自的物种的蛋白质数据库;与所述物种同属、同科、同目、同纲、同门、同界的蛋白质数据库。
3.一种基于蛋白质数据库和EST序列的蛋白鉴定方法,步骤包括:
1)使蛋白质样品成多肽片段的混合物并进行质谱,产生质谱图;
2)将相应物种的EST数据序列根据密码子原则六框翻译成EST氨基酸序列,形成EST氨基酸序列库;
3)将上述质谱图相对于第一蛋白质数据库进行数据库搜索,对于每一张质谱图,如果有搜索结果,搜索到的蛋白即为对该质谱图鉴定到的蛋白;
4)将其他质谱图相对于上述EST氨基酸序列库进行数据库搜索,对于每一张质谱图,如果有搜索结果,将搜索到的EST氨基酸序列组成一个组;
5)将同一组中的EST氨基酸序列对应的EST序列进行拼接,具有重叠部分的EST序列拼接成更长的大片段,经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体;
6)将一组中的大片段和单体分别比对到第二蛋白质数据库,对每个大片段和单体挑选比对分值最大且大于第一阈值的蛋白质,确定该组对应于一个蛋白或几个蛋白,其中所述第一阈值是1e-5至1e-30;
7)若是一组里的大片段和单体若比对到不同蛋白,将大片段对应的蛋白与其他单体进行比对,若比对分值满足第二阈值,则认为该组代表所述大片段对应的蛋白,其中所述第二阈值是1e-10至1e-50;
8)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。
4.权利要求3的方法,其中所述第一蛋白质数据库是样品来自的物种蛋白质数据库,并且/或者其中所述第二蛋白质数据库是样品来自的物种的蛋白质数据库;与所述物种同属、同科、同目、同纲、同门、同界的蛋白质数据库。
5.权利要求1或3的方法,其中所述EST数据来自公共数据库或商业数据库。
6.权利要求1或3的方法,其中所述第一阈值是1e-10至1e-20,例如1e-15;并且/或者所述第二阈值是1e-20至1e-40,例如1e-30。
7.权利要求1或3的方法,其中所述比对通过软件BlastX进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110441720.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:服务器密码保护方法与装置
- 下一篇:一种齿轮齿面摩擦因数的反求方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用