[发明专利]基于MMS_ResNet_1d模型的ERα拮抗剂的ADMET性质预测方法在审
申请号: | 202111388314.X | 申请日: | 2021-11-22 |
公开(公告)号: | CN114093414A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 王玉成;冯志宏;叶晓东;王芸;汪鸣明;赵娜娜;张石川;占文锋 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B5/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230031 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mms_resnet_1d 模型 er 拮抗剂 admet 性质 预测 方法 | ||
1.一种基于MMS_ResNet_1d模型的ERα拮抗剂的ADMET性质预测方法,其特征在于,包括以下步骤:
S1:收集一系列作用于靶标ERα的拮抗剂化合物的n种ADMET性质以及m个分子结构描述符;
以靶标ERα的拮抗剂化合物的m个分子描述符作为m个自变量,对m个自变量分别进行数据标准化操作后,得到特征数据记为:X=[x1,x2,…,xi,…,xm],xi表示第i个分子描述符的值;以二分类标准分别标定ERα拮抗剂化合物的n种ADMET性质,从而得到ERα拮抗剂化合物的总标签,并通过独热编码进行表示,记为因变量Y=[y1,y2,…,yj,…,yn],其中,yj为第j种性质的标签,取值为0时表示负类,取值为1时表示正类;将特征数据X和因变量Y组合为数据集并划分为训练集Dtrain和验证集Dval;
S2:搭建由一个数据输入模块、h个分支模块和一个输出融合模块组成的MMS_ResNet_1d多尺度分类模型;
S2.1:所述数据输入模块依次包括一个卷积层Conv1d、一个批归一化层BatchNorm1d、一个激活函数层ReLU和一个最大池化层MaxPool1d,设置输入数据的通道数为m,并将所述训练集Dtrain按照每批次的大小为bs输入所述数据输入模块中,并输出中间特征X′;
S2.2:第a个支模块Routea由g个残差块叠加后连接一个自适应池化层组成,且第b个残差块Rb由前处理单元P_conv经断连机制与Shortcut单元连接而成;设置第b个残差块Rb的内置参数为strideb,a∈[1,h];
S2.2.1:所述第b个残差块Rb的前处理单元P_conv依次包括一个卷积层Conv1db1、一个前批归一化层BN1d、一个ReLu激活函数层、一个卷积层Conv1db2、一个后批归一化层BN1d,其中,卷积层Conv1db1的卷积核大小为kab、步长为sab、填充大小为卷积层Conv1db2的卷积核大小为kab、步长为1、填充大小为
S2.2.2:所述残差块的Shortcut单元包含一个卷积核大小为1且步长为2的卷积层Conv1d和一个批归一化层BN1d;
S2.2.3:所述中间特征X′并行输入h个分支模块的第1个残差块R1中,经过第a个分支模块Routea的第1个残差块R1中的前处理单元P_conv和Shortcut单元的处理后,输出卷积块映射值p_outb和直连块映射值s_outb,并由断连机制判断第1个残差块R1的内置参数为stride1是否为“1”,若是,则将残差映射值out1=p_out1+s_out1作为第1个残差块R1的输出,否则,将残差映射值out1=p_out1+out0作为第1个残差块R1的输出,当b=1时,out0=X′;
当b=2,3,…,g时,第b-1个残差块Rb-1输出残差映射值outb-1作为第b个残差块Rb的输入,并经过第b个残差块Rb的处理后输出残差映射值outb,从而由第g个残差块Rb的输出残差映射值outg;
S2.2.4:最后一个残差块Rg输出的残差映射值outg经自适应池化层处理后得到单尺度映射值Outa并作为第a个分支模块Routea的输出;从而得到h个分支模块输出的多尺度映射值
S2.3:所述输出融合模块依次包括一个融合层Cat、一个展平层Flatten和一个全连接层Fc,其中,所述融合层Cat将按第二个维度进行拼接后再经过展平层Flatten和全连接层Fc的处理,最终输出神经元映射值记为l=[l1,…lj,…ln],其中,lj代表全连接层第j个神经元输出的映射值;
S3:训练和选择模型:
S3.1:初始化学习率为lr、当前迭代次数为epoch、最优分类准确率为ACCmax、学习率调整迭代值t=0,设置调整周期阈值为tmax;
S3.2:利用式(1)构建二分类交叉熵损失L,:
式(1)中:σ(lj)代表将第j个神经元映射值lj输入sigmoid函数计算所得到的第j个性质预测为正类的概率;
S3.3:在第epoch次迭代中将训练集Dtrain按照每批次的大小为bs进行层归一化处理后送入所述MMS_ResNet_1d模型中进行训练,并计算所述交叉熵损失L后求解m个通道的梯度,再利用基于学习率lr的Adam优化器优化梯度中的权重参数,从而得到第epoch次训练的模型;
S3.3:在第epoch次迭代训练后在验证集Dval上按照每批次大小为bs对第epoch次训练的模型进行验证,计算当前第epoch次训练的模型的决定系数ACCepoch并作为评估指标,若ACCepochACCmax,则将ACCepoch赋值给ACCmax,并保存当前第epoch次训练的模型的参数,若ACCepoch≤ACCmax,则将t+1赋值给t后,判断t=tmax是否成立,若成立,则将学习率lr调整为0.5lr;否则,保持学习率lr;
S3.4:将epoch+1赋值给epoch后,返回步骤S3.3,直到决定系数不再提高时,停止训练并将最后一次训练的模型作为最优分类模型F;
S4:将待测试ADMET性质的n种ADMET性质输入最优分类模型F;中,并输出标签预设的对应性质的属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院,未经中国科学院合肥物质科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111388314.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:Cu-GN金属纳米片电催化剂的制备方法
- 下一篇:一种箱体结构及真空卫生系统