[发明专利]一种肽段液相色谱保留时间预测方法及系统有效
申请号: | 201610941299.X | 申请日: | 2016-10-25 |
公开(公告)号: | CN106248844B | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 涂慧君;刘超;迟浩;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G01N30/86 | 分类号: | G01N30/86 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 祁建国,梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 肽段液相 色谱 保留 时间 预测 方法 系统 | ||
技术领域
本发明涉及生物信息学,液相色谱保留时间预测,特别涉及一种肽段液相色谱保留时间预测方法及系统。
背景技术
现有技术中使用“鸟枪法”鉴定蛋白质时,在肽段进入质谱仪之前,要用色谱法对其进行分离,避免由于肽段数目过多,一次性输入质谱仪而造成严重的信号叠加,肽段在被注入色谱的强度达到最高时经历的时间为保留时间,保留时间是独立于质谱信息之外的另一维重要信息,在一定的反向液相色谱条件下,不同肽段的保留时间不同,根据肽段的序列等信息,可以对肽段在色谱中的保留时间进行预测,并将保留时间预测结果与质谱信息相结合,用于提高肽段鉴定结果的灵敏度或可靠性。
现有的主要的保留时间预测软件有SSCalc、BioLCC、Elude等,它们有的只支持特定色谱条件下的预测,有的不能支持有修饰肽段的预测,且运行效率低下,不能满足当前数据处理的要求。
现有的技术存在三大问题或缺点:
1.现有的技术能支持不同色谱条件下预测保留时间的较少。当色谱条件发生变化时,肽段的保留时间会相应发生变化,原有模型不再适用。
2.现有的技术大多针对常规的肽段,对修饰肽段的支持较少。研究发现,特定修饰会影响肽段的保留时间,当肽段发生修饰时,现有模型预测不准。
3.现有的技术处理数据效率不高,如知名软件Elude在多个测试数据集上的运行时间普遍在20分钟以上。
发明人在进行肽段的色谱保留时间预测研究时,发现现有技术往往只支持特定色谱条件下的预测,并且只支持常规肽段的预测,这一方面是由于现有的研究方法比较局限,一些实验室只研究特定色谱条件下的数据集,针对该数据集挑选的参数不适用于别的色谱条件;一方面是由于研究者没有认识到修饰对肽段保留时间的重要影响,同时,现有的技术普遍效率不高,是由于挑选参数的过程非常耗时。
发明创造“一种高效液相色谱峰保留时间预测方法”,该发明涉及一种高效液相色谱峰保留时间预测方法。该方法包括:测定各种样品的各种成分的标准保留时间,在每个样品的目标成分中选择两个成分作为该样品的双标对照成分,获得双标对照成分在待测样品的供试品溶液中的实测保留时间,获得其他目标成分的实测保留时间,进行两点验证和多点验证等步骤。采用该发明提供的高效液相色谱峰保留时间预测方法能够准确预测待测样品的各种成分的色谱峰的保留时间,进而对待测样品的色谱峰进行定性,进行待测样品的鉴别。该发明所提供的方法具有较高的预测精度,适用的色谱柱数量多,明显优于现有的相对保留时间法。该发明通过测定各种样品成分的标准保留时间,利用标记对照成分在待测样品中的实验保留时间,推算其他目标成分相对的保留时间,与本发明不同,本发明不需要选择标记成分,只要获得色谱实验中任意一部分肽段的实验保留时间,就能预测出已知序列肽段的保留时间,更加一般化。
发明创造“一种预测反相高效液相色谱梯度洗脱模式保留时间的方法”,该方法获取描述流动相组成和容量因子关系的保留方程;运用塔板理论对线性多阶梯度洗脱条件近似处理,获取第i阶段梯度洗脱的起始体积分数和对应的保留因子ki;通过起始体积分数和对应的保留因子ki获取待测化合物在流动相中的浓度,根据待测化合物在流动相中的浓度计算出待测化合物保留时间。该方法高精度的预测出任意梯度条件下的保留时间,且预测过程简单;通过三个实施例验证了该方法的可行性,且当保留时间考虑仪器的滞留时间时,进一步提高了保留时间的精度。该发明基于塔板理论,使用人工构造的保留方程预测保留时间,属于使用实验参数构造经验公式的方法,与本发明不同,本发明不需要构造经验公式,通过分析并使用多维特征描述实验肽段在该色谱条件下的理化性质,就可以预测待测肽段的保留时间。
发明内容
针对现有技术的不足,本发明提出一种肽段液相色谱保留时间预测方法及系统。
本发明提出一种肽段液相色谱保留时间预测方法,包括:
步骤1,对原始质谱数据文件进行搜索,获取肽段-谱图匹配作为鉴定结果,对于所述鉴定结果中FDR小于1%的来自目标库的肽段-谱图匹配,提取肽段-谱图匹配中相应肽段的实验保留时间,并设置训练样本与测试样本;
步骤2,使用所述训练样本,将带有修饰的氨基酸作为新氨基酸,建立多元线性回归模型,使用梯度下降法求解每种氨基酸的保留系数;
步骤3,对所述训练样本中的每条肽段,提取56维特征,并计算相应的特征值;
步骤4,建立预测模型,对所述测试样本中已知序列的肽段进行保留时间预测。
所述步骤1包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610941299.X/2.html,转载请声明来源钻瓜专利网。