[发明专利]一种基于概率统计模型的蛋白质二级质谱鉴定方法有效
申请号: | 201110358552.6 | 申请日: | 2011-11-11 |
公开(公告)号: | CN102495127A | 公开(公告)日: | 2012-06-13 |
发明(设计)人: | 肖传乐;马超;刘帅;陈晓舟;何庆瑜 | 申请(专利权)人: | 暨南大学 |
主分类号: | G01N27/62 | 分类号: | G01N27/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 杨晓松;裘晖 |
地址: | 510632 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 统计 模型 蛋白质 二级 鉴定 方法 | ||
1.一种基于概率统计模型的蛋白质二级质谱鉴定方法,其特征在于,包括以下步骤:
(1)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引;
(2)根据待分析实验图谱中母离子的核质比在步骤(1)所述的肽段数据库中找出符合要求的候选肽段,并对找到的所有候选肽段产生符合要求的理论图谱;
(3)对待分析实验图谱进行去同位素和去噪处理;
(4)将步骤(3)得到的待分析实验图谱和步骤(2)中得到的每张候选肽段的理论图谱进行匹配打分,选择分值最高的候选肽段作为此实验图谱的鉴定结果;
(5)针对所有实验图谱鉴定结果进行整体假阳性控制。
2.根据权利要求1所述的基于概率统计模型的蛋白质二级质谱鉴定方法,其特征在于,所述步骤(1)具体包括以下步骤:
(1-1)读取待分析二级质谱样本中物种蛋白质序列库文件的一条蛋白质序列;
(1-2)根据用户设定的蛋白酶,找到蛋白质序列中的酶切位点,在符合规则的酶切位点产生断裂,从而产生没有漏切位点的肽段或存在漏切位点的断裂肽段;
(1-3)计算步骤(1-2)所得到的各个虚拟酶切后肽段的质量数,根据每个氨基酸的分子量计算每个肽段的质量数;
(1-4)将肽段信息写入肽段数据库中以该肽段取整后质量数命名的文件中;
(1-5)读取下一条蛋白质序列,重复步骤(1-2)-(1-4),直到所有的蛋白序列被酶解和存入肽段数据库;
(1-6)按文件名的数字从小到大读出文件中的肽段信息,每读一个文件,按照文件中肽段的质量数从小到大进行排序,然后存入一个数据库文件database.ind中,同时,以1da为单位对所有肽段建立查找索引database.index,其查找索引包括以下信息:其质量数,这些肽段在database.ind文件中的开始位置,该区间内的肽段的个数。
3.根据权利要求2所述的基于概率统计模型的蛋白质二级质谱鉴定方法,其特征在于,所述步骤(1-3)中在计算质量数之前首先对每个氨基酸的质量建立索引,其对20个氨基酸的索引和翻译后修饰的索引方法如下:
(1-3-1)启用一个与ASCII码等同大小的数组,该数组的下标与氨基酸单字母简写的ASCII码数值一致,其数组中保存氨基酸的质量数;
(1-3-2)把单字母表示氨基酸的肽段序列中每个字母依次转换成其对应ASCII码的数值,然后根据氨基酸索引表的数值计算每条虚拟酶解后的肽段的质量数。
4.根据权利要求1所述的基于概率统计模型的蛋白质二级质谱鉴定方法,其特征在于,所述步骤(2)在肽段数据库中找出符合要求的候选肽段的具体步骤是:
(2-1-1)加载步骤(1-6)中的database.index文件信息到内存数组index,读取待分析二级质谱的母离子核质比值和电荷信息,并计算其母离子去电荷后的质量数;
(2-1-2)根据容许的质量误差和步骤(2-1)所述的质量数在index数组中查找相应肽段在文件database.ind中的开始位置和行数,然后加载此区间内的所有肽段信息;
(2-1-3)根据用户所采用质谱仪的精确度,对步骤(2-1-2)加载到内存的肽段进行进一步的筛选,作为此待分析二级质谱的候选肽段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110358552.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:防松固紧螺栓套件
- 下一篇:热传递设备和包括热传递设备的电子外壳