[发明专利]一种先导化合物虚拟筛选方法和装置有效
申请号: | 201711129689.8 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107862173B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 吴建盛;朱文勇;张邱鸣;姜烨;孙顾威 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16C20/70 | 分类号: | G16C20/70;G16C20/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李吉宽 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 先导 化合物 虚拟 筛选 方法 装置 | ||
1.一种先导化合物虚拟筛选方法,其特征在于,所述方法包括如下步骤:
步骤1:进行关于Hl,W,P,O;f←0s,F←0s的初始化,其中l∈[1,L],V∈[1,5];
步骤2:从给定一组用于训练的n个配体的数据D中随机抽取一批子集S;
步骤3:通过Rdkit工具和配体的smile格式,得到子集S中每一个分子的化学信息数据;
步骤4:利用公式通过累加操作考虑原子a的所有近邻原子信息;
步骤5:利用公式通过卷积操作考虑原子a的连接化学键的信息;
步骤6:利用公式ca=s(maHl),通过卷积操作计算ca,其中ma是Ia和用于表征原子连接的化学键信息的权重矩阵乘积的ReLU激活函数的结果,ca是ma和连接权重向量乘积的softmax函数的结果;
步骤7:利用公式f=f+ca,对分子进行累加操作依次得到每一模块单元的分子指纹f,即分子指纹f是每一模块单元的ca的累加;
步骤8:利用公式将每个模块单元得到的分子指纹fl加权组合在一起,生成新的加权分子指纹F,加权分子指纹生成部分只包含一层,即对由各模块单元生成的分子指纹进行加权得到新的分子指纹;
步骤9:利用公式预测得到生物配体的活性,使用的活性值为-log10v,其中v是生物活性值,以此来缩小生物活性值的跨度,生物活性生成部分是由两个全连接层构成;
步骤10:得到预测活性值后,通过公式的计算,可以得到目标损失函数,通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值,以及加权深度学习模型中需要求解的权重参数,进行预测活性值的优化,所述优化包括第一部分是正则化的二次成本函数,其考虑了估计项目与观测值的偏差,第二部分是控制模型复杂性并避免过度拟合的正则化条件;
步骤11:通过公式用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新,为每个模块单元给定属性向量ma的特征维度、指纹长度B和中间层的N个神经元,不断更新梯度和平方斜率的指数移动平均值,并在初始化时间步长期间,将这些移动平均值初始化为全0的向量,并在最后权重参数θ会通过导致偏差校正的估计量以及步长进一步更新;
步骤12:判断模型优化是否达到预期的标准,如果没有,返回步骤2继续执行操作;反之,返回生成的新的加权分子指纹F;
步骤13:构建随机森林回归预测模型:P=Predictor(F,Y),随机森林是M个决策树{T1(x),...,TM(x)}的集合,其中,x={x1,...,xk}是配体指纹的k维向量,随机森林模型产生M个输出结果其中,是第m个树的配体预测值,继而,再组合所有树的输出以产生一个最终预测即为个体树预测的平均值,在给定一组用于训练的n个配体的数据D={(X1,Y1),...,(Xn,Yn)}后,其中,n为用于训练的配体个数,Xi是指纹向量,Yi是配体的活性值,其中i=1,...,n。
2.根据权利要求1所述的一种先导化合物虚拟筛选方法,其特征在于,所述步骤13包括:
(1)从n个配体的训练数据中,绘制一个引导样本数据集,即通过从D中随机取样替代,产生n个训练样本;
(2)对于每个引导样本数据集,使用以下方案生成树:在每个节点,选择随机获取到的特征子集中的最佳分割,树生长到最大尺寸,即直到没有更多的分裂是可能的,而不是进行修剪;
(3)重复上述步骤(1)-(2)直到M个这样的树生长出来,其中M为随机森林回归预测模型中树的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711129689.8/1.html,转载请声明来源钻瓜专利网。