[发明专利]基于分子指纹预测的代谢物识别系统及其应用方法有效
申请号: | 202011600846.0 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112735532B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 汤德佑;谭达强;余文涛;胡寓旻;姚瑶;张晖;曾康 | 申请(专利权)人: | 华南理工大学;中山大学肿瘤防治中心(中山大学附属肿瘤医院;中山大学肿瘤研究所) |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B50/00;G06N3/04;G01N27/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 肖宇扬;付静 |
地址: | 510006 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分子 指纹 预测 代谢物 识别 系统 及其 应用 方法 | ||
本发明提出了一种基于分子指纹预测的代谢物识别系统及其应用方法,包括:数据预处理模块,所述数据预处理模块用于代谢物表征数据进行采集分析,并提取特征参数;分子指纹模块,所述分子指纹模块用于采集数据预处理模块提取的特征参数,并进行分子指纹预测,以确定代谢物的可能化学结构;候选化合物筛选模块,所述候选化合物筛选模块用于对代谢物的可能化学结构进行初步筛选;候选化合物计算模块,所述候选化合物计算模块用于将代谢物的可能化学结构与代谢物的特征参数进行匹配计算,确定代谢物的预测结果。本发明基于代谢物串联质谱数据的分子指纹预测算法建立在深度神经网络模型上,能够根据输入的串联质谱数据预测对应未知代谢物的分子指纹。
技术领域
本发明涉及生物信息和代谢组学领域,特别涉及基于分子指纹预测的代谢物识别方法及系统。
背景技术
代谢物是细胞代谢过程的中间产物或最终产物。有别于核酸、蛋白质和脂质等生物大分子,代谢物通常是相对分子质量不高于1500Da的小分子化合物。作为基因和蛋白质的表达的下游产物,代谢物的活性可作为生理病理状态的标志。同时,相比于种类繁多、结构复杂的生物大分子,小分子代谢物的分析难度也相对较低。
代谢组学是系统生物学的重要组成部分,着重于对生物系统中的代谢物进行全面分析,或对某组代谢物进行定向分析。代谢组学的研究方法能够通过分析在不同环境下样品的代谢物活性,并与基因组学、转录组学等组学的知识建立联系,从而推理得出由遗传因素或环境因素对生物系统所施加的影响的反映水平,在生物医学、微生物学等领域有广泛的应用场景。
质谱技术(Mass Spectrometry)在代谢组学研究中有着大量的应用。其中,串联质谱技术(Tandem Mass Spectrometry)通过串联至少两个质谱仪器,并令后级质谱仪对前级质谱仪中产生的若干离子进行二次电离,产生大量的离子碎片,从而提供了丰富的化合物结构信息,大大提高了质谱技术的分析能力。
基于匹配二级质谱数据的方法是代谢物识别的一个惯用方法。该方法以二级串联质谱技术为基础,通过选择在一级质谱仪中产生的某个离子作为未知代谢物,并将其送往二级质谱仪中进行电离,产生二级质谱数据,并将二级质谱数据与数据库中已有的化合物标准品的二级质谱数据进行匹配,并将具有最高匹配分数的标准品二级质谱数据所对应的化合物作为未知代谢物的识别结果。不过,该方法在实践中存在数据覆盖率不足的问题。二级质谱数据不仅受化合物自身条件的影响,还会受仪器因素以及其他实验条件因素的影响。若某个化合物在用于匹配的数据库中的覆盖率不足,即缺乏某些实验条件下的二级质谱数据,则该化合物可能永远不会被识别出来。
分子指纹是一种直接描述分子的结构以及性质的编码。分子指纹的形式通常是定长的二进制串,每一个二进制位可以表示某个特征的存在(1)或不存在(0),或者与其他二进制位共同表达某类特征,比如环结构或者特定化学键的有无等。常见的分子指纹包括FP3、FP4、MACCS等。分子指纹常常与某种相似性量度(如Jaccard系数)结合,被用于搜索与特定化合物结构相似的化合物。
基于匹配代谢物的分子指纹的方法是代谢物识别的一种较新方法。相比于直接匹配二级质谱数据,该方法首先会从代谢物的串联质谱数据中预测出一组表征代谢物特征的分子指纹,然后使用预测得到的分子指纹与化合物数据库中不同化合物的分子指纹进行匹配,从而获得与代谢物的识别结果。由于分子指纹是一种与质谱数据无关的分子描述符,因此即便某一化合物在数据库中没有标准品质谱数据,它也可以参与到代谢物的匹配中,从而解决了质谱数据库的数据覆盖率不足的问题,提高了代谢物的识别能力。
目前,现有的分子指纹预测算法不断地尝试各种核技巧、多核学习方式来提高识别准确率。本发明通过使用深度神经网络来预测代谢物分子指纹识别未知代谢物,并建立了基于该分子指纹预测算法的代谢物识别系统。本发明不仅能够有效地从串联质谱数据中识别出未知代谢物,而且准确度与可用性比现有的代谢物识别方法更好。
发明内容
本发明提供了基于分子指纹预测的代谢物识别系统,以改善代谢物识别方法的准确度与可用性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所),未经华南理工大学;中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011600846.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:触控膜用低温封端光学胶及其使用方法
- 下一篇:一种市政污水处理装置