[发明专利]一种基于深度学习的蛋白质质谱数据的分析方法及系统在审
申请号: | 202110425032.6 | 申请日: | 2021-04-20 |
公开(公告)号: | CN113362899A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 何情祖;郭欢;帅建伟;韩家淮 | 申请(专利权)人: | 厦门大学 |
主分类号: | G16B40/10 | 分类号: | G16B40/10;G06N3/04;G06N3/067 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 张松亭;李艾华 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 蛋白质 数据 分析 方法 系统 | ||
1.一种基于深度学习的蛋白质质谱数据的分析方法,其特征在于,包括:
S101,获取样品的DIA蛋白质数据;
S102,基于所述DIA蛋白质数据,沿驻留时间维度以特定步幅移动的滑块为最小处理单元,删除滑块中的低信噪比的背景离子,确定候选母离子和候选子离子;
S103,将候选子离子的提取色谱输入变分自编码器编码神经网络后,嵌入到欧氏空间中,然后用k均值分类算法将其划分为k类;
S104,基于蛋白质数据库将每个碎片子离子簇与相应的母离子结合,生成母离子-碎片子离子对;
S105,通过计算与理论谱相匹配的碎片子离子间的相似度,再次判断这些母离子-碎片子离子对,将相似度超过预设阈值的母离子-碎片子离子对作为伪串联谱存储。
2.根据权利要求1所述的基于深度学习的蛋白质质谱数据的分析方法,其特征在于,所述沿驻留时间维度以特定步幅移动的滑块为最小处理单元,具体包括:
在每个MS1隔离窗口中的驻留时间维度上拆分固定宽度滑块;每个滑块被视为包含一系列MS1谱图和相应MS2谱图的最小处理单元。
3.根据权利要求1所述的基于深度学习的蛋白质质谱数据的分析方法,其特征在于,所述删除滑块中的低信噪比的背景离子,具体包括:
通过与信噪比相关的算法删除滑块中的低信噪比的背景离子;所述与信噪比相关的算法包括寻峰算法和去同位素算法。
4.根据权利要求1所述的基于深度学习的蛋白质质谱数据的分析方法,其特征在于,所述S103之前,还包括:
生成三重态数据来训练变分自编码器编码神经网络;所述三重态数据的获取方法包括:
储存六个定量肽段碎片的提取色谱;
从一个肽段中随机选取两个碎片的提取色谱XICs作为锚定样本和正样本数据;从不同的肽段中随机选取负样本数据;
将锚定数据、正数据和负数据组合为三重数据。
5.根据权利要求1所述的基于深度学习的蛋白质质谱数据的分析方法,其特征在于,所述的变分自编码器编码神经网络包括四个分支网络,每个分支网络为包括若干个神经元的全连接层,且所述全连接层包括一层及以上;所述四个分支网络的输出向量通过末端耦合进行连接,将拼接向量切分为两个维数相等的向量,一个表示标准差,另一个表示平均值。
6.根据权利要求1所述的基于深度学习的蛋白质质谱数据的分析方法,其特征在于,所述S104,具体包括:
将蛋白质数据库中的蛋白质按照蛋白酶的酶切位点切分成理论肽段,所述理论肽段组成理论肽段数据库,根据所述理论肽段数据库来确定每个碎片簇对应的母离子,以生成母离子-碎片子离子对;其中,所述理论肽段数据库包括了一些列肽段信息,每一个肽段对应一个唯一的肽段索引。
7.根据权利要求6所述的基于深度学习的蛋白质质谱数据的分析方法,其特征在于,所述S105,具体包括:
建立用二进制表示的反向索引表,所述反向索引表表示两个肽段索引集的交集,即由母离子查询得到的索引集和由碎片子离子查询得到的碎片子离子索引集;
利用质荷比将母离子映射到肽段索引,将碎片子离子的映射到肽段索引,再使用碎片子离子的质荷比查询肽段索引;
计算肽段得分,并根据所述反向索引表对所有理论肽段按照得分进行排序后,再计算与得分最高的理论肽段匹配的碎片子离子集之间的相似度;如果相似度超过指定的阈值,则将聚类中的碎片子离子与相应的母离子分到一类并存储为串联谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110425032.6/1.html,转载请声明来源钻瓜专利网。