[发明专利]一种基于离子索引的整体蛋白质鉴定方法与系统有效
申请号: | 201710701999.6 | 申请日: | 2017-08-16 |
公开(公告)号: | CN107563148B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 王瑞敏;孙瑞祥;迟浩;曾文锋;刘超;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B40/20;G16B50/30;G16B30/10 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,包括统计碎裂位点,挖掘碎裂模式。在待测蛋白质样品的完整数据集鉴定结果中统计强度最高多根谱峰匹配到的氨基酸位点,用于离子索引表的创建。对C端碎裂的位点和N端碎裂的位点处产生的碎片离子建立倒排索引表。对于每张谱图,去除母离子峰后,提取强度最高的多根谱峰作为查询谱峰,检索离子索引表获取候选蛋白质。粗打分过滤候选蛋白质,其中粗打分采用了改进的BM25算法,并考虑了N/C端可变修饰和互补离子。本发明通过上述技术点,能兼顾高效蛋白质鉴定效率和解析率,尤其对于碎裂不是很充分的质谱数据,效果更为明显。 | ||
搜索关键词: | 一种 基于 离子 索引 整体 蛋白质 鉴定 方法 系统 | ||
【主权项】:
一种基于离子索引的整体蛋白质鉴定方法,其特征在于,包括:步骤1、根据氨基酸碎裂位点,计算蛋白质数据库中各蛋白质序列在碎裂位点断裂产生的离子质量,建立包含这些离子质量的离子索引表,其中该氨基酸碎裂位点包括氨基酸D,E,V的C端和氨基酸G,P,Y的N端;步骤2、根据预设的可变修饰类型和最大可变修饰位点数目,并以蛋白质的修饰数据库为基础,建立修饰质量索引;步骤3、对于每张质谱图,从该质谱图中提取查询谱峰,并用该查询谱峰检索该离子索引表,为该质谱图保留多个候选蛋白质;步骤4、根据每个该候选蛋白质的N/C端截断情况,为各该候选蛋白质保留有效序列;步骤5、对于每个该有效序列,生成其所有的理论碎片离子,通过打分算法计算各碎片离子与该质谱图的匹配度,利用该匹配度进一步筛选该有效序列;步骤6、根据每个该有效序列的母离子质量偏差检索该修饰质量索引,为每个该候选蛋白质获取对应的修饰组合,并推导修饰位点的位置,得到对应的候选蛋白质变体;步骤7、为每个该候选蛋白质变体进行细打分,根据分值排名为各质谱图保留多个蛋白质变体,并将各质谱图匹配的蛋白质变体作为训练样本输入至SVM模型;步骤8、通过使用该SVM模型对所有质谱图的候选蛋白质变体进行重打分,得到每个候选蛋白质变体的SVM分值;步骤9、取质谱图对应的蛋白质变体中SVM分值最高的蛋白质变体,作为该质谱图的匹配蛋白质变体,并根据每个该匹配蛋白质变体的SVM分值,对质谱图进行筛选,将筛选出的质谱图和其相应的匹配蛋白质变体作为最终鉴定结果进行输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710701999.6/,转载请声明来源钻瓜专利网。