[发明专利]一种面向小分子药物虚拟筛选的多源迁移学习方法和装置在审
申请号: | 202010854924.3 | 申请日: | 2020-08-24 |
公开(公告)号: | CN112086139A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 袁露;吴建盛;胡海峰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16C20/30 | 分类号: | G16C20/30;G16C20/50;G16C20/64;G16C20/70;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 分子 药物 虚拟 筛选 迁移 学习方法 装置 | ||
本发明提供一种面向小分子药物虚拟筛选的多源迁移学习方法及装置,所述方法包括以下步骤:获取同源数据集,并对其采样,获得经过采样后的同源数据集;输入配体分子smiles和生物活性值,在图神经网络中训练得到虚拟筛选模型;将采样后的同源数据集放到虚拟筛选模型中训练,得到模型参数;预测配体分子与药物靶标结合的生物活性值。
技术领域
本发明涉及一种虚拟学习方法和装置,特别涉及一种面向小分子药物虚拟筛选的多源迁移学习方法和装置。
背景技术
药物虚拟筛选是一种用于药物发现的计算技术,用于搜索小分子库,以识别最可能与药物靶标结合的结构,这样就能集中目标,大大降低实验筛选化合物的数量,从而缩短研发周期,节约经费开支。
其中,虚拟筛选可以分为两类,即基于受体的虚拟筛选和基于配体的虚拟筛选。基于受体的虚拟筛选从靶蛋白的三维结构出发,研究靶蛋白结合位点的特征性质以及它与小分子化合物之间的相互作用模式,根据与结合能相关的亲合性打分函数对蛋白和小分子化合物的结合能力进行评价,最终从大量的化合物分子中挑选出结合模式比较合理的、预测得分较高的化合物,用于后续的生物活性测试。基于配体的虚拟筛选一般是利用已知活性的小分子化合物,根据化合物的形状相似性或药效团模型在化合物数据库中搜索能够与它匹配的化学分子结构,然后对这些挑选出来的化合物进行实验筛选研究。
具有成药属性的化合物的数量是巨大的,机器学习可以帮助搜索庞大的化学分子库,同时使用算法对海量化合物的性质进行编目、表征和比较,可以帮助研究人员快速、经济地找到最佳候选药物。同时也可以使药物更安全,临床试验中的药物失败率更低。此外,还有助于发现新类型的药物,探索未被探索或被否认的化学空间。
目前,已发现的靶标的药物开发很多已经接近饱和,新药开发更需要发现新的药物靶标。然而,新的药物靶标研究的不够充分,针对新的药物靶标的虚拟筛选往往面临着训练样本不足的问题,难于构建出好的虚拟筛选模型。已有研究表明,迁移学习有助于提升药物靶标在训练样本量不足时的虚拟筛选问题。另外,新药物靶标经常可以发现同源或相似的靶标蛋白,有些甚至可以发现多个,这些靶标蛋白更容易与相似的化合物作用,其相互作用方式和机制往往更为相似。
发明内容
发明目的:为了解决小样本下新靶标的小分子药物虚拟筛选问题,本发明的目的之一是提供一种有效的面向小分子药物虚拟筛选的多源迁移学习方法,本发明的目的之二是根据方法提供相应的面向小分子药物虚拟筛选的多源迁移学习装置。
技术方案:本发明提供一种面向小分子药物虚拟筛选的多源迁移学习方法,包括以下步骤:
(1)获取同源数据集,并对其采样,获得经过采样后的同源数据集;
(2)输入配体分子smiles和生物活性值,在图神经网络中训练得到虚拟筛选模型;
(3)将采样后的同源数据集放到虚拟筛选模型中训练,得到模型参数;
(4)预测配体分子与药物靶标结合的生物活性值。
其中,步骤(1)包括:
(1.4)选择同源药物靶标;
(1.5)获取所需的同源药物靶标初始数据集,其中,所述的初始数据集包括同源药物靶标的信息,所述信息包括所需要的配体分子smiles和配体作用的活性值;
(1.6)对同源药物靶标对应的数据集随机有放回采样,设置采样比率,重复几次,获得经过采样后的子同源数据集。
优选地,步骤(2)包括:
(2.5)获取目标药物靶标初始数据集T={(x1,y1),...,(xiyi),...(xN,yN)},
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010854924.3/2.html,转载请声明来源钻瓜专利网。