[发明专利]一种特征交叉融合的时间序列峰簇精确定位方法在审
申请号: | 202110293557.9 | 申请日: | 2021-03-19 |
公开(公告)号: | CN112908428A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 冯筠;陆柯迪;孙士生;胡陟 | 申请(专利权)人: | 西北大学 |
主分类号: | G16C20/30 | 分类号: | G16C20/30;G01N30/86;G06N3/12 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 王孝明 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 交叉 融合 时间 序列 精确 定位 方法 | ||
本发明公开了一种特征交叉融合的时间序列峰簇精确定位方法,该方法按照以下步骤进行,对糖肽质谱数据集进行鉴定,得到鉴定结果数据集;建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型,用重复鉴定离子数据集r‑Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型;使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准,得到粗校准结果根据粗校准结果得到最佳匹配峰簇CPeak‑b,本发明中的模型所使用的随机扰动函数有利于模型快速收敛,避免模型陷入局部最小;构建了峰特征交叉融合公式进行相关值计算,得到最佳匹配峰簇,完成峰簇精确定位,解决了现有技术峰簇定位不够精准的问题。
技术领域
本发明属于生物信息/信号处理领域,涉及质谱学中的峰簇精确定位,具体涉及一种特征交叉融合的时间序列峰簇精确定位方法。
背景技术
在质谱数据的分析研究中,通常有气相色谱,液相色谱LC等。这些仪器和方法都能够进行生物质谱分析生成丰富的光谱信息。因此,高质量数据的获取是实际应用的关键,但这一步往往受仪器条件和人工操作变化的影响。为了更好应用数据,必须对数据中由于仪器漂移、温度、压力波动,注入延迟,分离株老化等因素引起的峰簇漂移等问题进行处理。因此在质谱数据的后续分析研究中,首先要解决的问题是针对峰簇漂移的定位算法研究。
针对这个问题,科学界进行了数十年的研究与探讨,针对二维洗脱时间峰簇对准后定位,提出了众多计算方法,例如,动态时间规划算法、相关优化扭曲算法、参数时间扭曲方法、使用减少组映射的峰对齐方法、波束搜索的自动峰值对准方法、模糊扭曲方法、实用简便的峰值对准方法、多尺度峰对齐方法和自动时移算法等,这些算法在解决二维洗脱时间峰簇对准上确实有一定的效果。然而,这些方法都只能够实现峰簇对准后定位,但在具体定位过程都没有考虑峰簇的全部特征,导致最终峰簇定位不够精准。
此外,在离子峰簇的精确定位中,离子峰簇正确定位过程,不仅与色谱图中的洗脱时间相关,与离子本身的特征如电荷,质量,同位素峰型等亦息息相关,而且,在根据实际质谱计算离子信息的过程中发现,离子峰簇还会存在混叠现象。
发明内容
针对现有技术存在的不足,本发明的目的在于,提供一种特征交叉融合的时间序列峰簇精确定位方法,解决现有技术中峰簇的定位不够精准的技术问题。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
一种特征交叉融合的时间序列峰簇精确定位方法,该方法按照以下步骤进行:
步骤一,对糖肽质谱数据集进行鉴定,得到鉴定结果数据集;
所述的糖肽质谱数据集为多个原始质谱文件;
所述的鉴定结果数据集包括重复鉴定离子数据集r-Set和未匹配离子数据集;
所述的重复鉴定离子数据集r-Set包括糖肽质量、电荷、二级谱图编号、糖结构编号和肽链组成;所述的未匹配离子数据集包括糖肽质量,电荷,二级质谱图编号,糖肽结构编号和肽链组成;
步骤二,建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型,用重复鉴定离子数据集r-Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型;使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准,得到粗校准结果;
所述的原始质谱数据间基于随机扰动的时间加权全局粗校准模型如公式2-1所示:
Ttarget=Slope*Ttemplate+offset 公式2-1
其中:
Ttemplate表示作为模板的原始质谱文件的洗脱时间;
Ttarget表示作为目标的原始质谱文件的洗脱时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110293557.9/2.html,转载请声明来源钻瓜专利网。