[发明专利]一种基于机器学习算法提升对接软件虚拟筛选能力的方法有效
申请号: | 202010169152.X | 申请日: | 2020-03-12 |
公开(公告)号: | CN111402967B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 曹东升;熊国丽;叶文玲 | 申请(专利权)人: | 中南大学 |
主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/70;G06N20/00 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 黄艺平 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 算法 提升 对接 软件 虚拟 筛选 能力 方法 | ||
本发明公开一种机器学习算法提升对接软件虚拟筛选能力的方法,依照实施虚拟筛选的目标靶点,收集该靶点下小分子数据构成模型训练的数据集,从PDB数据集中下载靶点蛋白;确定实施筛选的对接软件和打分函数,将数据集中的全部小分子数据对接到靶点蛋白中,输出所有打分函数对应的能量辅助项作为机器学习分类模型的输入特征;对于数据集中的正样本和负样本进行分层抽样以使活性分子和非活性分子的比例在训练集和测试集中保持相同;将XGBoost算法作为机器学习分类模型,保留最佳参数组作为最终参数输出该分类模型;将外部小分子数据集与靶点蛋白对接,输出每一化合物的全部能量辅助项作为测试的输入特征;将所有分子的能量辅助项输入到已经训练好的模型输出预测结果。
技术领域
本发明涉及生物信息学分析技术领域,尤其涉及一种基于机器学习算法提升对接软件虚拟筛选能力的方法。
背景技术
早期药物发现通常依赖于高通量筛选,其筛选表现相对可靠但是费用较高且命中率低。随着计算化学和计算机技术的快速发展,虚拟筛选逐渐成为药物研发的核心技术之一。作为计算机辅助药物设计(CADD)的重要分支,虚拟筛选能够从大的化合物数据库中富集潜在的活性分子,从而加速药物研发过程并且极大地降低时间和资源成本。按照筛选起点的不同,虚拟筛选可以分为基于配体的虚拟筛选(LBVS)和基于结构的虚拟筛选(SBVS)。其中基于结构的虚拟筛选(SBVS)充分考虑了配体和受体的结合效果,能够避免局部作用,整体结合欠佳的情况,是虚拟筛选中发现新颖活性分子更为可靠的策略。
分子对接是最广泛使用的基于结构药物设计方法,常用的对接软件包括MOE-Dock,DOCK,Glide,GOLD和AutoDock Vina等。蛋白配体对接的一般过程是把配体小分子放在受体的活性口袋中,通过不断优化小分子的位置以及分子内部柔性键的二面角,寻找小分子化合物和靶标大分子相互作用的最佳构象,然后使用打分函数进行打分或结合亲和力预测。因此对接的可靠性依赖于构象搜索的覆盖度以及使用打分函数的预测准确度。实际上,目前使用的大部分对接软件在构象采样方面的研究已经相当完善,而打分函数难以准确预测蛋白配体结合亲和力仍然是限制对接可靠性的主要因素。
打分函数从方法学的角度可以粗略地分为经典打分函数(力场、经验、知识)和机器学习打分函数。目前广泛使用的分子对接软件内置的打分函数均为经典打分函数,这些打分函数通常预设表征复合物的变量与其结合亲和力之间的关系是基于理论的函数关系。实践中是选取少量专家挑选的特征与亲和力值进行线性回归,实际上这种线性关系可能并不总是存在的,算法上的缺陷是经典打分函数难以准确评估蛋白配体结合亲和力的主要原因。与此相反,基于机器学习的打分函数能够直接从大量的数据中进行学习并隐式地捕捉非线性的相互作用关系,因而对于结合亲和力的预测要比经典打分函数更为准确。
但是基于机器学习算法开发的打分函数由于其通用性和可操作性较差,尚停留在实验室阶段。常用商业或开源对接软件不断更新完善,仍然是基础研究者进行虚拟筛选时的首选。国内外许多研究小组在改进现有对接软件虚拟筛选能力方面进行了深入探索,包括提取经典打分函数的描述符重新进行机器学习建模,提取对接复合物的相互作用能量项进行数据分析,以及包含了数据融合思想的共识得分等,都在一定程度上提升了对接软件的虚拟筛选能力。但是这些方法普遍需要较多的专家干预,计算难度大耗时长,相对虚拟筛选操作者仍存在不可逾越的技术壁垒。因此,更加简单快速易于实现的提升对接软件虚拟筛选能力的方法的发明对于先导化合物发现和新药研发具有重要意义。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于机器学习算法提升对接软件虚拟筛选能力的方法,所述方法包括:
步骤1,构建机器学习模型,依照实施虚拟筛选的目标靶点,收集该靶点下小分子数据构成模型训练的数据集,从PDB数据集中下载靶点蛋白;
步骤2,确定实施所述虚拟筛选的对接软件和打分函数,将数据集中的全部小分子数据对接到靶点蛋白中,输出所有打分函数对应的能量辅助项作为机器学习分类模型的输入特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010169152.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多维感知数据碰撞融合分析方法和装置
- 下一篇:智能外呼风险监控方法及装置