[发明专利]一种基于离子索引的整体蛋白质鉴定方法有效
申请号: | 202010244337.2 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111524549B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 王振振;孙瑞祥;迟浩;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G16B20/50 | 分类号: | G16B20/50;G16B40/20;G16B50/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 离子 索引 整体 蛋白质 鉴定 方法 | ||
1.一种基于离子索引的整体蛋白质鉴定方法,包括下列步骤:
步骤1,获得候选蛋白质的串联谱图和可信母离子;
步骤2,对候选蛋白质建立序列标签索引表;
步骤3,根据修饰数据库中的信息以及用户设置的修饰数目建立修饰质量索引;
步骤4,从所述串联谱图中提取查询谱峰,用所述查询谱峰检索所述序列标签索引表,获取每张串联谱图的候选蛋白质;
步骤5,对于所述候选蛋白质检查其N/C端截断情况,为每个所述候选蛋白质保留有效序列片段;
步骤6,对每一个所述候选蛋白质序列,根据其母离子质量偏差检索所述修饰质量索引,获取候选修饰组合,得到候选蛋白质变体;
步骤7,对每一个所述候选蛋白质变体进行修饰位点定位和细打分,使用SVM模型对所有串联谱图的所述候选蛋白质变体进行重打分,得到每个候选蛋白质变体的SVM分值,其中所述SVM模型是通过将与各个串联谱图匹配的样本蛋白质变体作为训练样本训练得到的;
步骤8,取每张串联谱图SVM打分第一名的蛋白质变体结果,将所有的蛋白质变体-谱图匹配(Proteoform-Spectrum Match,PrSM)按照打分排序;其中步骤1包括:
步骤11,计算每一个候选串联谱图的母离子特征,确定候选母离子;
步骤12,对每一个所述候选母离子,根据其在多电荷状态下理论与实验同位素模式匹配误差之和筛选所述候选母离子;
步骤13,对筛选后的候选母离子,使用离线LightGBM和在线SVM模型对待测母离子进行打分,输出所述可信母离子;其中,所述离线LightGBM和在线SVM模型是用已知母离子数据集作为训练样本训练得到的;以及
其中步骤5包括:在确定串联质谱及候选蛋白质序列后,利用滑动窗口技术来枚举蛋白质两翼的标签位置,然后根据串联谱图中提取到的标签及枚举标签得到的两翼标签来确定所述两翼的质量差,获取所有的双端截断蛋白质变体序列。
2.根据权利要求1所述的整体蛋白质鉴定方法,其中步骤11包括:枚举所有候选串联谱图,对于每一个候选串联谱图,找到相应的先导谱图,及前后各5张一级谱,并在其中枚举母离子的最高峰位置和电荷状态,确定一个候选母离子。
3.根据权利要求1所述的整体蛋白质鉴定方法,其中步骤12包括:对每一个所述候选母离子,先计算其在其不同的电荷状态下理论与实验同位素模式匹配误差,然后计算其在多电荷状态下理论与实验同位素模式匹配误差之和,将所述误差之和作为特征值,并根据所述特征值排序,对同一个串联质谱下最高峰位置相同、电荷状态不同的所述候选母离子,保留其中特征值前5的所述候选母离子进入后续处理。
4.根据权利要求1所述的整体蛋白质鉴定方法,其中步骤13包括:对保留的所述候选母离子进行全量特征提取,使用所述离线LightGBM和在线SVM模型对待测母离子进行打分,二者打分结果进行线性加权加和,判断候选母离子是否为可信母离子并输出所述可信母离子。
5.根据权利要求1所述的整体蛋白质鉴定方法,其中步骤5还包括:在确定串联质谱及候选蛋白质序列后,枚举单端的蛋白质标签位置,然后根据串联谱图中提取的标签及枚举标签得到的标签计算质量差,得到可能的单端截断蛋白质变体序列。
6.根据权利要求1所述的整体蛋白质鉴定方法,其中步骤8具体包括:为每张串联谱图保留细打分前十名的所述蛋白质变体,使用一个SVM模型对所有串联谱图的候选的所述细打分前十名的所述蛋白质变体进行重打分,得到每个候选蛋白质变体的SVM分值,其中所述SVM模型是通过将与各个串联谱图匹配的样本蛋白质变体作为训练样本训练得到的。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至6中任一项所述方法的步骤。
8.一种计算机可读储存介质,其上储存有计算机程序,其中,所述程序被处理器执行时实现上述权利要求1至6其中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010244337.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:风景园林用植被移栽装置
- 下一篇:一种市政垃圾再生保温砖制作用处理装置