[发明专利]一种先导化合物虚拟筛选方法和装置有效
申请号: | 201711129689.8 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107862173B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 吴建盛;朱文勇;张邱鸣;姜烨;孙顾威 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16C20/70 | 分类号: | G16C20/70;G16C20/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李吉宽 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种先导化合物虚拟筛选方法和装置。包括先导化合物在药物靶标上的分子指纹的生成和先导化合物与药物靶标相互作用的生物活性的预测。分子指纹生成包括基于模块单元的分子指纹、加权分子指纹和生物活性三个部分。生物活性预测是利用配体分子指纹和生物活性值作为随机森林回归模型的输入,构建了预测模型。另外,本发明的装置包括基于配体的虚拟筛选的通用工具、先导化合物与药物靶标作用的生物活性的预测工具和先导化合物在药物靶标上的分子指纹的生成工具。目前用于生物活性预测、性能优越的分子指纹往往长度较大,而本发明设计的深度学习算法可以生成短的、性能好的分子指纹,得到最好的药物靶标配体的生物活性预测模型。 | ||
搜索关键词: | 一种 先导 化合物 虚拟 筛选 方法 装置 | ||
【主权项】:
一种先导化合物虚拟筛选方法,其特征在于,所述方法包括如下步骤:步骤1:进行关于W,P,O;f←0s,F←0s的初始化;步骤2:从给定一组用于训练的n个配体的数据D中随机抽取一批子集S;步骤3:通过Rdkit工具和配体的smile格式,得到子集S中每一个分子的化学信息数据;步骤4:利用公式通过累加操作考虑原子α的所有近邻原子信息;步骤5:利用公式通过卷积操作考虑原子α的连接化学键的信息;步骤6:利用公式ca=s(maHl),通过卷积操作计算ca,其中ma是Ia和用于表征原子连接的化学键信息的权重矩阵乘积的ReLU激活函数的结果,ca是ma和连接权重向量乘积的softmax函数的结果;步骤7:利用公式f=f+ca,对分子进行累加操作依次得到每一模块单元的分子指纹f,即分子指纹f是每一模块单元的ca的累加;步骤8:利用公式将每个模块单元得到的分子指纹f(记为fl)加权组合在一起,生成新的加权分子指纹F,加权分子指纹生成部分只包含一层,即对由各模块单元生成的分子指纹进行加权得到新的分子指纹;步骤9:利用公式预测得到生物配体的活性,使用的活性值为‑log10v,其中v是生物活性值,以此来缩小生物活性值的跨度,生物活性生成部分是由两个全连接层构成;步骤10:得到预测活性值后,通过公式的计算,可以得到目标损失函数,通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值,以及加权深度学习模型中需要求解的权重参数,进行预测活性值的优化,所述优化包括第一部分是正则化的二次成本函数,其考虑了估计项目与观测值的偏差,第二部分是控制模型复杂性并避免过度拟合的正则化条件;步骤11:通过公式用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新,为每个模块单元给定属性向量ma的特征维度、指纹长度B和中间层的M个神经元,不断更新梯度和平方斜率的指数移动平均值,并在初始化时间步长期间,将这些移动平均值初始化为全0的向量,并在最后权重参数θ会通过导致偏差校正的估计量以及步长进一步更新;步骤12:判断模型优化是否达到预期的标准,如果没有,返回步骤2继续执行操作;反之,返回生成的新的加权分子指纹F;步骤13:构建随机森林回归预测模型:P=Predictor(F,Y),随机森林是M个决策树{T1(x),...,TM(x)}的集合,其中,x={x1,..,xk}是配体指纹的k维向量,随机森林模型产生M个输出结果其中,是第m个树的配体预测值,继而,再组合所有树的输出以产生一个最终预测即为个体树预测的平均值,在给定一组用于训练的n个配体的数据D={(X1,Y1),...,(Xn,Yn)}后,其中,n为用于训练的配体个数,Xi(i=1,...,n)是指纹向量,Yi是配体的活性值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711129689.8/,转载请声明来源钻瓜专利网。