[发明专利]基于LINCS-L1000扰动信号的细胞活性预测方法有效
申请号: | 202010331009.6 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111524554B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 陈明;秦玉芳;陆家兴 | 申请(专利权)人: | 上海海洋大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B20/00;G16B50/00;G06N20/20;G06N5/01;G06N3/006 |
代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 周一新 |
地址: | 201306 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lincs l1000 扰动 信号 细胞 活性 预测 方法 | ||
1.基于LINCS-L1000扰动信号的细胞活性预测方法,其特征在于,所述方法包括以下步骤:
S1:数据预处理:
对包括LINCS-L1000扰动转录组学信号、癌症治疗反应门户(CTRP)中药物治疗后的细胞活性信息、癌症依赖性图谱数据库(Achilles)中shRNA治疗前后的效应改变量的数据集进行匹配和筛选,获取差异表达基因的转录水平表达量与细胞表型信息;
S2:建立模型:
建立随机森林与弹性网的特征重要性加权融合算法模型,以准确性函数最大化为标准,根据步骤S1预处理后的信息筛选得到的差异表达基因DEGs选择关键基因,并通过FEBPSO-XGBoost算法将关键基因的特征与癌细胞系中的药物治疗反应相关联,建立药物反应的模型预测细胞活性;
S3:基因集富集分析:包括对所述关键基因分别进行GO富集分析和KEGG通路分析的步骤;
S4:CTRP-L1000与Achilles-L1000跨数据集交互式验证:
包括Achilles-L1000数据训练的系列模型预测CTRP-L1000数据中的细胞活性和CTRP-L1000数据训练的系列模型预测Achilles-L1000数据中的细胞活性的步骤,上述跨数据集交互式验证所述模型的有效性;
S5:抗癌药物诱导下的细胞活性预测:
基于新细胞系的基因组特征,经步骤S4验证有效的模型预测抗癌药物诱导下的细胞活性;
步骤S2中,通过FEBPSO-XGBoost算法评估多个不同扰动时间和不同药物浓度作用下关键基因的表达水平,预测不同细胞系在药物或者shRNA治疗后的细胞活性;
步骤S2中,包括分步骤:
S201:建立随机森林与弹性网的特征重要性加权融合算法模型,分别依据所述关键基因在随机森林和弹性网中的贡献度进行排序,并通过以下公式(1)进行加权求和,获取的加权平均值与所需要选取的最佳基因数再次按基因贡献度依次排列:
其中,RFPearson和ENPearson均为随机森林与弹性网算法在验证集PertDT-V上的Pearson相关系数,该值越高说明计算所得的预测值与实验测量值之间的相关程度越高;
为差异表达基因DEGs在随机森林算法中的特征重要性排序或者选取的基因个数;
为差异表达基因DEGs在弹性网算法中的特征重要性排序或者选取的基因个数;
S202:在每棵决策树的叶子节点上有一个预测分数,通过如公式2所示的XGBoost算法多次迭代构建若干个弱评估器,所有决策树的预测分数之和为预测的细胞活性:
其中,fk(samplei[DEGs])表示第i个样本sample在选取的差异表达基因集DEGs上,在第k棵决策树上的预测分数,K表示决策树的数量;
S203:基于转录组学差异表达基因的表达水平,通过FEBPSO算法对参数进行寻优,得到每个模型的最优参数组合,依据所述关键基因与药物治疗反应之间的基因调控关系,通过上述最优参数组合和XGBoost算法对细胞活性预测;
步骤S3中,所述GO富集分析与所述KEGG通路分析均与细胞凋亡过程相关。
2.根据权利要求1所述的细胞活性预测方法,其特征在于,所述的数据预处理过程包括分步骤:
S101:获取两阶段的LINCS-L1000扰动谱数据,合并,得到在多种扰动状态下全基因组的基因表达情况;
S102:按照细胞系、化合物和浓度信息,将LINCS-L1000中的扰动转录组学信号与CTRP中药物治疗后的细胞活性信息、Achilles中shRNA治疗前后的效应改变量进行匹配和筛选,得到在多点浓度和多个时间点下的差异表达基因的转录水平表达量与细胞表型信息的数据集;
S103:步骤S102得到的数据集分为3小时、6小时、24小时、96小时、120小时和144小时的数据子集。
3.根据权利要求1或2所述的细胞活性预测方法,其特征在于,还包括通过癌细胞系百科全书CCLE和NCI60数据集中的数据验证模型的有效性,具体为:
a)在NCI60数据集中,使用GI50值作为药物敏感性的评价指标,当药效在50%生长抑制浓度范围内,对应药物敏感性评价指标GI50值,当药效在50%生长抑制浓度范围内无效时,记为最高浓度值,定义药物浓度差异变量;
b)在CCLE数据集中,采用活性面积作为药物敏感性的评价指标,并进行二值化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海洋大学,未经上海海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010331009.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种六分量环式风洞天平
- 下一篇:一种RSTP状态机调度的方法及系统