[发明专利]基于IS联合SVR的大规模组学数据校正方法及系统在审
申请号: | 202210120022.6 | 申请日: | 2022-01-29 |
公开(公告)号: | CN114705766A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 陈艳华;丁贤;余文梦;再帕尔·阿不力孜;张瑞萍 | 申请(专利权)人: | 中央民族大学;中国医学科学院药物研究所 |
主分类号: | G01N30/02 | 分类号: | G01N30/02;G01N30/72;G01N30/86;G06K9/62;G06N20/10;G16B40/20 |
代理公司: | 北京卓爱普专利代理事务所(特殊普通合伙) 11920 | 代理人: | 王玉松;刘青 |
地址: | 100081 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 is 联合 svr 大规模 数据 校正 方法 系统 | ||
本发明提供基于IS联合SVR的大规模组学数据校正方法,校正方法包括:1)制作QC样本数据,将QC样本插入待测样本并进行基于色谱‑质谱方法的代谢组学分析,获取所有样本的生物代谢学数据;2)将生物代谢组学数据进行预处理和标准化处理;3)建立IS标度化和支持向量回归丰度预测模型,根据这个模型预测数据中的随机系统误差;4)校正实际样本s中的系统误差,计算归一化后的代谢物峰面积。还提供了一种应用该方法的数据校正系统,该方法和系统提高数据归一化效率,进一步提高数据的生物重复性和结果的准确性。
技术领域
本发明属于生物代谢组学技术领域,具体来说,涉及一种基于IS联合SVR的大规模组学数据校正方法。
背景技术
代谢组学是近年来在生物医学、食品安全和环境毒理学等领域出现的新兴前沿技术。由于生物个体在生理状态和生活方式上的多样性,大队列样本的代谢组学研究因其在平均生物异质性方面的优势而出现越来越广泛的应用;高通量的LC-MS技术的发展也进一步促进了大规模代谢组学的发展。在大规模、长周期的代谢组学实验过程中,来源于分析前阶段(样品采集,样品储存条件和时间,样品制备,不同操作人员等)和分析阶段(分析顺序,质谱响应波动,基质效应,保留时间漂移等)的非生物变异(又称技术变异或有害变异),会给代谢组学研究引入偏差,导致低重复性、不可靠的分析结果。标准操作程序(SOP)和稳健的实验设计可以一定程度上降低非生物变异,但却无法完全消除。因此,在数据采集后,非生物的系统误差的识别、评价和消除对于大规模代谢组学数据的质量控制十分重要。目前,主流的代谢组学数据校正方法主要分为基于IS的数据归一化方法和基于QC的数据归一化方法。
在样品制备过程中,通过添加与内源性代谢物具有相似浓度和化学性质的同位素标记内标,可有效降低基质效应、进样量和人为操作的随机误差影响。由于单一的内标无法模拟复杂基质对每个代谢物的影响,也不可能获取所有代谢物的同位素标记内标,近年来提出了基于多个内标的校正策略,如NOMIS、BM-IS、RUV-random和CCMN。尽管它们在一定程度上减少了非生物变异,但其作用仍然有限;在长周期、大规模代谢组学研究中,仪器信号随时间显著漂移造成批内和批间样品的巨大差异,采用基于内标的归一化方法不足以完全消除。
此外,基于QC的数据归一化方法被越来越广泛地应用。QC样品是与受试样品具有相似化学多样性的混合样品。它将相同的QC样品均匀穿插在整个分析批次中重复测量,建立QC样品中各特征峰的强度信号随时间的理论波动模型,以此达到对检测样品峰信号进行校正的目的,如LOESS、NormAE、MetaboQC、WaveICA、SERRF、SVR等。然而,基于QC的归一化方法是假设每个代谢物在所有不同的样品中都有相同的基质效应,但事实上不同的样品中代谢物水平差异很大,每个代谢物在不同的样品中具有不同的基质效应。故而,基于QC的归一化方法不能很好的模拟基质效应的影响。
发明内容
本发明的第一目的在于提供一种基于IS联合SVR的大规模组学数据校正方法,所述数据为生物代谢组学数据,所述生物代谢组学数据包括待测样品的液相色谱-质谱数据或气相色谱-质谱数据,所述生物代谢组学数据校正方法包括:
1)将QC样本插入实际样本分析序列中并进行基于色谱-质谱方法的代谢组学分析,获取QC样本和实际样本的生物代谢学数据,所述生物代谢数据包括含有各样品的各组峰面积、保留时间和质荷比信息的数据;
2)对所述生物代谢组学数据进行预处理和标准化处理,得到二维矩阵数据;
3)建立IS标度化和支持向量回归丰度预测模型:使用QC样本数据作为训练数据,根据代谢物在QC样本q中峰面积的相对标准偏差参数的变化选择最佳IS,并判断是否需要执行最佳内标校正标度化,然后根据IS校正后QC样本的峰面积变化与进样顺序、批次和强相关的其他代谢物之间的关系,拟合峰面积的支持向量回归预测模型,根据这个模型预测数据中的随机系统误差;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学;中国医学科学院药物研究所,未经中央民族大学;中国医学科学院药物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210120022.6/2.html,转载请声明来源钻瓜专利网。