[发明专利]串联质谱数据母离子检测模型训练方法及母离子检测方法有效
申请号: | 201410406562.6 | 申请日: | 2014-08-18 |
公开(公告)号: | CN104215729A | 公开(公告)日: | 2014-12-17 |
发明(设计)人: | 邬龙;曾文锋;袁作飞;刘超;孟佳明;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G01N30/88 | 分类号: | G01N30/88;G01N30/86;G06F19/00 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;李科 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 串联 数据 离子 检测 模型 训练 方法 | ||
技术领域
本发明涉及生物信息学技术领域,具体地说,本发明涉及一种蛋白质组学中串联质谱数据母离子检测模型训练方法及母离子检测方法。
背景技术
鸟枪法是生物信息学中鉴定蛋白质的重要方法之一,它将生物样品中的蛋白质先酶切为肽段,然后送入串联质谱仪中,得到相应的质谱数据集,再通过串联质谱数据库搜索算法,如SEQUEST、Mascot、pFind等,可以从串联质谱数据中鉴定得到肽段,进一步进行肽段到蛋白质的推断,就可以获得样品中的蛋白质信息。
由肽段生物样品到质谱数据的产生分为两个阶段:第一阶段,肽段分批进入质谱仪,质谱仪对当前时刻进入质谱仪的所有肽段进行扫描,测量每条肽段的质荷比,由此产生的质谱图为一级谱图(MS1),第二阶段,选中一级谱图中谱峰强度较高的肽段进行碎裂,获得碎片离子,质谱仪对所有碎片离子进行第二次扫描得到二级谱图(MS2),也就是串联谱图。本文中,将由一级谱图和二级谱图组成的数据集称为串联质谱数据集。
在当前的基于串联质谱数据集鉴定肽段的方法中,通常需要先检测二级谱图所对应的母离子,然后再根据给定母离子质量来确定候选肽段,如果母离子信息判断错误,就会导致谱图鉴定错误,因此母离子的检测至关重要。现有技术中,基于串联质谱数据的母离子检测方法包括:Hardklor、pParse、MaxQuant等算法,它们都是从串联质谱数据中提取出一系列特征(包括色谱保留曲线和同位素峰簇相似度),然后再由这一系列特征来推断该二级谱图所对应的母离子。然而,目前的Hardklor、pParse、MaxQuant等算法均需要人工挑选各个特征的相关参数,并在多个数据集合上反复对比,逐渐调节各项参数数值,才能达到一定的召回率,因此使用起来十分繁琐。在检测速度方面,即便是最快的Hardklor算法,导出9000张谱图的母离子也需要15min以上,难以满足实时数据分析的要求。并且,现有的母离子检测算法的召回率也有待于进一步地提高。
综上所述,当前迫切需要一种召回率高、检测速度快的在串联质谱数据中检测母离子的方法。
发明内容
因此,根据本发明的一个方面,提供一种串联质谱数据母离子检测模型训练方法,包括下列步骤:
1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;
2)提取每个二级谱图-候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;
3)将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。
其中,所述步骤1)中,对于每张二级谱图,确定候选母离子的过程包括下列子步骤:
11)找到与当前二级谱图匹配的一级谱图;
12)从匹配的一级谱图中提取出当前二级谱图对应的碎裂窗口内的谱峰集合并将其作为候选单同位素峰集合;
13)根据与当前二级谱图匹配的一级谱图以及母离子的可能电荷范围,确定当前二级谱图的候选母离子。
其中,所述步骤11)中,与二级谱图匹配的一级谱图包括:与该二级谱图直接匹配的一级谱图,在该直接匹配的一级谱图前最近的一张一级谱图,以及在该直接匹配的一级谱图后最近的一张一级谱图。
其中,所述步骤2)中,对于每个二级谱图-候选母离子组合,根据该二级谱图和与其关联的一级谱图,以及组合中的候选母离子得出该二级谱图-候选母离子组合的特征向量。
其中,所述特征向量的元素还包括:单同位素峰质量、单同位素峰电荷、碎裂窗口内的谱峰个数、同位素峰簇长度、色谱保留曲线长度、同位素峰簇强度和、单同位素峰精度中的一项或多项。
根据本发明的另一方面,还提供一种基于上述串联质谱母离子检测模型的母离子检测方法,包括下列步骤:
4)对于待检测串联质谱数据集中的每张二级谱图,确定该二级谱图的候选母离子;
5)提取每个二级谱图-候选母离子组合的特征向量;
6)将每种二级谱图-候选母离子组合的特征向量依次输入上述串联质谱母离子检测模型训练方法所得的串联质谱母离子检测模型,根据匹配打分得出与当前二级谱图正确配对的母离子。
其中,所述步骤4)中还包括:对待检测串联质谱数据集进行预处理,删去噪音谱峰。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410406562.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置