[发明专利]一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台在审

专利信息
申请号: 202111531094.1 申请日: 2021-12-14
公开(公告)号: CN114220497A 公开(公告)日: 2022-03-22
发明(设计)人: 董坤;陈俊武;李垚;张锁江 申请(专利权)人: 中国科学院过程工程研究所
主分类号: G16C20/30 分类号: G16C20/30;G16C20/70;G06N3/04;G06N3/08
代理公司: 北京品源专利代理有限公司 11332 代理人: 王艳斋
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 迁移 学习 神经网络 离子 液体 抗生素 药性 预测 方法 通量 筛选 平台
【说明书】:

发明涉及一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台。该方法包括以下步骤:首先,从公开数据库和文献中搜集有机分子和离子液体对病菌的最低抑菌浓度,分别作为预训练和最终训练的数据集;采用有机分子的数据对单图输入模型进行预训练;通过迁移学习的方法将预训练模型参数移植到多图输入模型中;采用离子液体的数据对多图输入模型进行训练,得到离子液体抗菌性能预测模块;构建了离子液体的理论结构库;通过预测模块对理论结构库中的离子液体进行抗菌性预测,并最终筛选出具有优异抗菌性能的离子液体结构。本发明解决了数据量少及深度学习预测复杂的离子结构‑药性关系的难题,并实现了新型离子液体抗生素的高通量筛选。

技术领域

本发明涉及基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台,属于人工智能的生物医药应用领域,尤其针对计算新药发现方法。

背景技术

离子液体(ILs)由于其独特的结构和物化性质,已被广泛用于溶剂、催化和医药等领域研究和应用。但离子液体数量巨大,无法合成所有可能的阳离子和阴离子。因此基于结构来预测ILs的物化和药学性质具有重大意义。目前,通过计算化学(分子动力学,量化等)方法预测ILs的性质取得了快速的发展。但是,这些方法的计算耗时巨大,无法满足工业需求。机器学习算法可以通过学习部分现有数据来预测ILs的性质,大幅降低耗时,效率更高,准确性可靠。目前相关研究基本采用分子描述符和随机森林、梯度提升机等传统机器学习算法来预测ILs的性质。这些方法虽然可以获得良好的预测结果,但是存在泛化性能弱、可扩展性差、无法实现端到端学习的缺点。而ILs作为新一代广谱抗生素的热门候选者,亟需高效准确的设计与开发。

随着深度学习的兴起和发展,科研人员可以构造更深层次,性能更好的学习模型,其能够更好的处理复杂问题并实现端到端学习。为了进一步处理复杂图数据,研究人员借鉴了深度学习在图像方面的思想来设计图神经网络的架构。化合物中的原子和化学键可以合理地被视为图数据中的节点和边。这使得分子的化学信息可以很好得以图数据的形式表达,为通过图神经网络预测分子性质奠定了基础。然而,神经网络一般需要大量数据的训练才能达到可观的精度。离子液体的抗菌性数据稀少,很难通过单次训练模型达到较高精度。迁移学习是指利用数据、任务、或模型之间的相似性,将在旧领域学习过的模型,应用于新领域的一种学习过程。该方法有望解决深度学习中面临的数据量缺少的问题并提高模型的预测可靠性。

发明内容

本发明所要解决的问题是:针对离子液体抗菌性数据量少及结构-药性关系复杂的难点,提供一种端到端学习且可扩展性好的深度学习预测方法和高通量筛选平台。

本发明所采用的技术方案如下:一种基于迁移学习和图神经网络的离子液体型抗生素的药性预测方法及高通量筛选平台,其特征在于包括如下步骤:(1)从公开数据库和文献中搜集有机分子和离子液体对病菌的最低抑菌浓度,经数据清洗后分别作为预训练和最终训练的数据集,每个数据集又分为训练集、验证集和测试集;(2)分别构建单个图输入和多个图输入的图神经网络;(3)采用预训练数据集对单图输入模型进行预训练;(4)通过迁移学习的方法将预训练模型参数移植到多图输入模型中;(5)采用离子液体的数据对多图输入模型进行训练,进行模型性能的验证,得到离子液体抗菌性能预测模块;(6)构建离子液体的理论结构库;(7)通过预测模块对理论结构库中的离子液体进行抗菌性预测,并最终筛选出具有优异抗菌性能的离子液体结构。

优选地,所述步骤(1)中数据集的建立包括:对应的有机分子和离子液体数据集是针对同一病菌的最低抑菌浓度数据;设置区分活性的阈值为16μg/mL;化合物用化学分子规范表达式SMILES描述,由SMILES生成化合物的原子特征(节点属性)和化学键特征(边属性),从而形成模型输入所需的图数据;其中,原子特征包括元素类型、形式电荷、自由度、手性、键连氢原子数、杂化方式、芳香性、是否环内原子和原子质量,化学键特征包括键级、是否共轭、是否环内和立体异构性;基于化合物的亚结构(scaffold)将数据集切分为训练集、验证集和测试集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院过程工程研究所,未经中国科学院过程工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111531094.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top