[发明专利]一种蛋白质组质谱数据处理方法及装置在审
申请号: | 201910279816.5 | 申请日: | 2019-04-09 |
公开(公告)号: | CN111796095A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 桑运霞;孙天拥;刘强;左冰云;王凤 | 申请(专利权)人: | 苏州扇贝生物科技有限公司 |
主分类号: | G01N33/68 | 分类号: | G01N33/68;G16B40/30 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 朱凌娇;许亦琳 |
地址: | 215332 江苏省苏州市昆*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 组质谱 数据处理 方法 装置 | ||
1.一种蛋白质组质谱数据处理方法,所述方法至少包括以下步骤:
S1:获取蛋白质组质谱的下机数据及参数文件;
S2:对蛋白质组质谱的下机数据进行缺失值处理;
S3:对步骤S2得到的数据进行归一化处理,然后进行标准化转换;
S4:根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正,得到蛋白质组质谱数据。
2.如权利要求1所述的蛋白质组质谱数据处理方法,其特征在于,还包括以下特征中的一项或多项:
a.步骤S2中,缺失值处理的方法包括采用R语言mice包和Hmisc包进行;
b.步骤S3中,归一化处理的方法选自LOESS方法,和/或,标准化转换的方法选自log标准化方法;
c.步骤S4中,批次效应校正的方法包括采用R语言sva包进行;
d.在下机数据进行缺失值处理之前和进行批次效应校正之后,对蛋白质组质谱的整体质量分析,观察处理前后数据的整体分布差异。确认数据处理后进行后续分析的可靠性;
e.每一步步骤的结果都单独存放在各文件夹中,使用Markdown从各文件夹中获取相应结果,并编辑结果呈现形式和报告格式,将所有计算参数、计算过程和结果以HTML报告的形式输出。
3.如权利要求2所述的蛋白质组质谱数据处理方法,其特征在于,还包括以下特征中的一项或多项:
f.特征a中,缺失值处理的方法包括采用R语言mice包的md.pattern()函数和Hmisc包的impute()函数进行;
g.特征c中,批次效应校正的方法包括采用R语言sva包的ComBat()函数进行。
4.如权利要求3所述的蛋白质组质谱数据处理方法,其特征在于,特征f中,所述缺失值处理方法包括如下步骤:
1)使用R语言mice包中的md.pattern()函数生成一个以矩阵/数据框形式展示蛋白质组质谱的下机数据的缺失值模式的表格,其中0表示变量的列中没有缺失,1则表示有缺失值;
2)对于有缺失值的行,采用R语言的Hmisc包的impute()函数采用定值(0)插补的方式进行处理。
5.如权利要求4所述的蛋白质组质谱数据处理方法,其特征在于,还包括以下特征中的一项或多项:
h.步骤1)中,还包括以下步骤:使用aggr()和matrixplot()函数将所述下机数据情况可视化;
i.所述缺失值处理方法还包括如下步骤:
3)对去除缺失值后的下机数据按蛋白表达丰度进行过滤。
6.一种蛋白质组质谱数据的分析方法,其特征在于,包括以下步骤:
对采用权利要求1-5任一所述的蛋白质组质谱数据处理方法得到的蛋白质组质谱数据进行差异分析。
7.如权利要求6所述的蛋白质组质谱数据的分析方法,其特征在于,在进行差异分析之前,对所述蛋白质组质谱数据进行PCA分析。
8.一种蛋白质组质谱数据处理装置,所述装置至少包括:
获取模块,用于获取蛋白质组质谱的下机数据及参数文件;
缺失值处理模块,用于对蛋白质组质谱的下机数据进行缺失值处理;
归一化处理模块,用于对缺失值处理模块得到的数据进行归一化处理,然后进行标准化转换;
批次效应校正模块,用于根据参数文件中的批次信息对归一化处理模块得到的数据进行批次效应校正,得到蛋白质组质谱数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州扇贝生物科技有限公司,未经苏州扇贝生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910279816.5/1.html,转载请声明来源钻瓜专利网。