[发明专利]基于机器学习的自由能微扰网络设计方法在审
申请号: | 202011097352.5 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112102889A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 李治鹏;温书豪;杨明俊;林志雄;邹俊杰;马健;赖力鹏 | 申请(专利权)人: | 深圳晶泰科技有限公司 |
主分类号: | G16C10/00 | 分类号: | G16C10/00;G16C20/50;G16B20/00;G06N3/08;G06N3/04 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 胡吉科 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 自由能 网络 设计 方法 | ||
本发明公开了基于机器学习的自由能微扰网络设计方法,包括以下步骤:S1、准备计算所需的小分子数据集;S2、准备小分子/蛋白质输入文件;S3、利用FEP计算不同小分子对之间的△△G及std;S4、提取小分子的特征描述符;S5、准备机器学习模型所需的训练集和测试集;S6、构建机器学习模型;S7、训练机器学习模型;S8、测试集统计误差。本发明能够处理大量小分子结合自由能需要计算预测的场景,能够快速的设计出需要的微扰网络;得到的结果与std的相关性更高,进而能够有效的提高计算精度。并且随着计算的分子数量的增加,能够收集到更多的数据用于模型的训练,提高模型的泛化能力和精度。
技术领域
本发明属于分子动力学模拟技术领域,具体涉及一种基于机器学习的自由能微扰网络设计方法。
背景技术
小分子药物与靶点蛋白的结合自由能(△G),对于小分子药物的设计有着十分重要的指导作用。自由能微扰方法(free energy perturbation, FEP)作为一种基于分子动力学(molecular dynamics, MD)的计算方法,能够对于结合自由能进行预测。当预测任务涉及多个小分子时,自由能微扰网络的设计十分必要,能够有效的提高预测的精度。设计的自由能微扰网络图中,每个节点代表小分子,而每条边代表两个小分子之间结合自由能的差值(△△G)。在网络的设计过程中,核心问题是判断两个小分子是否应该连接,使得这条边计算得到的△△G不确定性(std)最小。现有设计方法大多按照下述原则进行判断,以确定两个小分子是否应该连接:
(1)基于经验的人工判断;
(2)基于谷本相似系数(Tanimoto similarity score)判断。
现有方法主要存在以下问题
1、基于经验的人工判断:需要计算的小分子数目为n时,所有能够连接的边总数,即可以进行FEP计算的分子对总数为n(n-1)/2。随着小分子数目的增加,需要进行判断的边数会迅速增加。这种情况下几乎不可能通过人工的方法进行识别判断。
2、基于Tanimoto similarity score判断:使用这一指标时,通常尽量将相似的小分子(Tanimoto similarity score越接近1,两个小分子越相似)进行连接。相似系数是基于分子指纹进行计算,考虑的小分子的特征十分有限。同时,按照这种方法判断得到的相似的分子,并不能保证计算得到的△△G不确定性小。
发明内容
针对上述技术问题,本发明的目的在于提供一种基于机器学习的自由能微扰网络设计方法,利用大量△△G的计算结果,使用机器学习的方法训练模型,更加快捷的设计自由能微扰网络,提高计算精度。
为实现上述目的,本发明提供如下技术方案:
基于机器学习的自由能微扰网络设计方法,包括以下步骤:
S1、准备计算所需的小分子数据集;
S2、准备小分子/蛋白质输入文件;
S3、利用FEP计算不同小分子对之间的△△G及std;
S4、提取小分子的特征描述符;
S5、准备训练集和测试集;
S6、构建机器学习模型;
S7、训练机器学习模型;
S8、测试集统计误差。
具体包括以下步骤:
S1、准备计算所需的小分子数据集:准备数据集时保证体系的多样性,以免出现模型对于部分体系的过拟合;
S2、准备小分子/蛋白质输入文件:根据FEP计算的需求,生成用于FEP计算的初始文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳晶泰科技有限公司,未经深圳晶泰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011097352.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电缆芯手动电动两用矫直器
- 下一篇:一种电缆芯电动矫直器