[发明专利]基于深度学习和基因表达数据的化合物肝毒性早期预测方法有效
申请号: | 201910546943.7 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110517790B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 冯春来;陈恒巍;季薇;芮蒙杰 | 申请(专利权)人: | 江苏大学 |
主分类号: | G16H70/40 | 分类号: | G16H70/40 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 基因 表达 数据 化合物 毒性 早期 预测 方法 | ||
1.一种基于深度学习和基因表达数据的化合物肝毒性早期预测方法,其特征在于,包括如下步骤:
步骤一:通过从公共生物医学数据库中对化合物作用后的基因表达数据进行挖掘,将得到的原始数据进行数据清洗与标准化,构建建模数据样本;
所述步骤一包括如下步骤:
1.1通过从公共生物医学数据库中收集来自同一基因芯片测定的化合物作用后的基因表达数据;所述公共生物医学数据库包括ArrayExpress、Gene Expression Omnibus (GEO);
1.2基因表达数据样本根据肝毒性病变级别按5分法分为严重,病变范围为[75%,100%],中度严重,病变范围为[50%, 75%),中度,病变范围为[25%, 50%),轻度,病变范围为[1%, 25%),轻微,病变范围为[0%, 1%);
1.3将出现任意一次毒性级别为严重、中度严重、中度和轻度毒性的化合物标记为阳性化合物,其所有时间点、所有剂量下的用药组样本均为肝毒性阳性样本;毒性病变级别轻微的化合物的基因表达数据样本和所有对照组样本作为肝毒性阴性样本;
1.4 基于R语言及Bioconductor R包,对收集的肝毒性阳性样本和阴性样本的基因表达数据进行预处理;其中,通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化;
1.5按照基因芯片的注释文件,将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配;
1.6将所有建模样本数据按照80%:20%随机分为训练集和测试集,训练集用于模型的训练学习,测试集用于模型的性能评估;
步骤二:通过基因差异表达分析与特征权重计算筛选肝毒性特征基因,作为最终模型样本特征;
所述步骤二包括如下步骤:
2.1 基于贝叶斯算法的limma R包对预处理后的基因表达数据进行差异表达分析,选取其中差异表达倍数的绝对值大于或等于2并且adjust-P值小于或等于0.05的基因作为特征基因;
2.2 进一步通过深度学习算法对特征基因的权重进行计算并保留特征权重值大于0.1的基因作为最终模型构建的特征基因,即肝毒性特征基因;
步骤三:基于深度学习算法构建预测模型,将筛选得到的肝毒性特征基因的表达数据用于模型的训练与学习;
所述步骤三包括如下步骤:
3.1 模型选取序贯(Sequential)模型接口,模型结构包括输入层、隐藏层以及输出层,其中隐藏层包括全连接层和Dropout层;
3.2 模型的输入为基因表达数据,其中每个特征基因都作为输入层的一个节点;
3.3 模型的输出为二分类结果0和1,其中0代表肝毒性阴性,1代表肝毒性阳性;
3.4 模型的隐藏层中,其通过Rectified Linear Unit (ReLU) 激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
;
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
3.5 模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
;
其中,y为隐藏层传出的激活后的值,z为模型输出结果,为转置权重矩阵,为转置偏差;
3.6 模型的训练过程中,采用compile模块对模型的学习过程进行配置,其参数分别设置为:优化器设为Root Mean Square prop,指标列表设为accuracy以及损失函数设为binary_crossentropy,其中该损失函数的计算公式为:
;
其中,LH(x,z)为预测值与真实值的差异大小,x为样本对应的真实值, z为样本对应的预测值,d为epoch数;
3.7 将步骤二处理后最终得到的肝毒性特征基因表达数据作为模型的输入,其中80%作为训练集用来训练模型,20%作为测试集用来测试模型性能;
步骤四:通过网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能;
所述步骤四包括如下步骤:
4.1 设置参数寻优范围,其中epoch number为[10, 50, 100, 200, 500],batch size为[10, 32, 64, 128],learning rate为[0.01, 0.001, 0.00001],dropout rate为[0,0.2, 0.5],node number为[50, 100, 300, 500, 1000];
4.2 通过网格搜索算法对构建的900个模型进行寻优;
4.3 通过10折交叉验证模式及评价指标对模型的预测性能进行评价,其中性能评价指标包括:敏感度(SEN);特异性(SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthewscorrelation coefficient,MCC);ROC曲线下面积(AUC);其中,敏感度、特异性和准确性越接近于100%,马修斯相关系数及ROC曲线下面积越接近于1,表明该模型预测性能越好;相反,敏感度、特异性和准确性越接近于0,马修斯相关系数及ROC曲线下面积越接近于0.5,表明该模型预测性能越差;
;
;
;
;
其中,TP代表真阳性; TN代表真阴性; FP代表假阳性; FN代表假阴性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910546943.7/1.html,转载请声明来源钻瓜专利网。