[发明专利]一种利用深度学习技术预测小分子化合物水溶性等级的方法有效
申请号: | 201811502789.5 | 申请日: | 2018-12-10 |
公开(公告)号: | CN109741797B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 赵鸿萍;崔秋季;倪冰苇 | 申请(专利权)人: | 中国药科大学 |
主分类号: | G16C20/30 | 分类号: | G16C20/30;G16C20/70 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王安琪 |
地址: | 211198 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 深度 学习 技术 预测 分子 化合物 水溶性 等级 方法 | ||
1.一种利用深度学习技术预测小分子化合物水溶性等级的方法,其特征在于,包括如下步骤:
(1)数据输入;数据输入具体输入化合物的ID、InChIKey、SMILES码和logS;
(2)数据清洗;具体为:包括去重、SMILES码转换和剔除大分子化合物3步;首先,利用InChIKey的唯一性查重,去掉重复冗余的数据记录;然后把化合物的SMILES码转换为Canonical SMILES码以避免因编码方法不统一而带来的计算误差,并计算CanonicalSMILES码字符串的长度和化合物的分子量;最后,剔除Canonical SMILES码字符串长度大于120或者分子量大于900的化合物;
(3)特征提取;具体为:通过Canonical SMILES码生成化合物的分子指纹,可选的分子指纹包括:FP2、FP3、MACCS、PubchemFingerprint多种,选用其中一种分子指纹作为步骤(5)构建的模型的输入数据;
(4)标准化处理;具体为:对化合物的水溶性值S计算其对数logS,然后对logS进行最大最小值标准化处理,作为输入数据的Label,最大最小值标准化法的计算公式为:
公式中的max1≤i≤n{xi}为所有水溶性数据的最大值,min1≤i≤n{xi}为水溶性数据的最小值,在使用最大最小值标准化方法时需要注意,当有新的数据需要加入时可能会导致max值和min值的变化,需要重新对数据进行标准化操作;
(5)模型构建;具体为:依次使用卷积神经网络、深度残差网络和全连接神经网络搭建;其中,深度残差网络由三个stage组成,每一个stage有3个残差模块,每个残差模块包括2个残差层,每个残差层又包括一层卷积层、一层批标准化层和一层激活函数层;残差模块,在其第二、三个stage中的第一个残差模块的shoutcut时又进行了一层卷积的操作;模型输入层的shape主要取决于化合物的Fingerprint向量的维度,模型输入层的数据是化合物的Fingerprint向量和Label值;输出层的shape是一维向量,对应最大最小值标准化处理后的水溶性值的对数logS;
(6)模型训练;具体包括如下步骤:
(61)定义Loss Function;
所述步骤(5)构建的模型实质是一种回归模型,评价回归模型质量常用可决系数R2,预测模型的Loss Function尝试使用了-R2,通过模型训练使Loss Function达到最小,即使R2最大化;
(62)设置卷积核大小及数量;
卷积核大小设为9或10;卷积核数量设为8-10之间的一个整数,每迭代上述深度残差网络中的一个stage,filters数目就增倍;以此来对模型进行调试,得到最优卷积核的大小及数量;
(63)设置网络层数和节点数;
针对所述步骤(5)构建的网络,层数调试主要针对深度残差网络和全连接神经网络进行,将深度残差网络层数设为20-30,全连接神经网络层数设为1-3进行试验,得到最优的层数;节点数调试主要针对全连接神经网络层,将该层节点数设为790-1000进行试验,得到最优的节点数;
(64)设置Activation Function;
针对深度残差网络中的激活函数层和全连接神经网络层的激活函数进行调试,使用常用的ReLU、P-ReLU、Sigmoid等进行试验,得出最适合模型的激活函数;
(65)设置Optimizers及其步长;
通过设置Adam、Nadam、RMSprop等优化器对模型进行调试,并把其步长即学习率设为0.0001、0.00001进行试验,得出最优的优化器及步长;学习率作为监督学习以及深度学习中重要的超参,其决定着目标函数能否收敛到最小值以及何时收敛到最小值;
(66)设置权值初始化方法与正则化方法;
针对卷积层,尝试使用uniform、he_normal2种常用的权值初始化方法和L1、L2两种正则化方法进行测试,选取适合模型卷积层的最优的权重初始化方法和正则化方法;
(67)Batch Size调试;
Batch Size为批尺寸,即每批次训练的数据量大小;把Batch Size设为30-60之间的一个整数进行试验,选取对于模型最优的Batch Size;
(7)模型评估;具体包括如下步骤:
(71)稳定性评估;
通过步骤(6)中产生的log文件绘制Epochs--R2图,由图中曲线的走势来判断模型的稳定性;
(72)精度评估;
步骤(5)构建的预测模型实质是回归模型,回归模型精度的评估指标常用R2值,式中yi为真实值数据,是预测值,为真实值的均值,n为数据个数,R2值越大,表示模型精度越高,反之表示模型精度低;MSE表示均方误差,式中Ti为真实值,Yi为模型预测值,n为数据个数,也是回归模型精度评价的常用指标之一,MSE值越小,表示模型精度越高,反之表示模型精度低;使用可决系数R2作为主要评估指标,并同时监测均方误差MSE作为参考;评估方法常采用4折、5折或10折交叉验证法;尝试将步骤(4)处理完毕的数据随机地平均分成4份、5份或10份,通过交叉验证构成训练集和验证集,以此进行训练并将其结果作为模型精度评估的依据;
(8)水溶性预测和分级;具体包括如下步骤:
(81)利用模型计算最大最小值标准化的水溶性值的对数logS;
经过步骤(7)的模型评估后,训练结果将获得预测精度高、稳定可靠的最优预测模型,具体会生成两个文件,分别是权重、偏差参数文件和模型结构文件;预测基于以上权重、偏差参数文件和模型结构文件,通过输入的化合物的分子指纹进行计算,模型输出为最大最小值标准化处理后的水溶性值的对数logS;
(82)去标准化得到水溶性值;
对步骤(81)输出的值进行去标准化计算得到logS,并经过转换得到化合物的水溶性值;转换公式如下:
公式中,logS为去标准化后的水溶性值的对数,MW为化合物的相对分子质量,S为水溶性值,即化合物在100g水中达到饱和状态时所能溶解的质量,单位为(g/100g);
(83)利用水溶性等级表得出水溶性等级;
对比水溶性等级表得出对步骤(82)得到的水溶性值对应的水溶性等级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国药科大学,未经中国药科大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811502789.5/1.html,转载请声明来源钻瓜专利网。