[发明专利]基于可变半径高斯球的分子体积计算方法以及用于药物虚拟筛选的分子三维相似度打分方法在审
申请号: | 202110913294.7 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113593655A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 严鑫;李瑞麟;卢峰 | 申请(专利权)人: | 北京中大唯信科技有限公司 |
主分类号: | G16C20/20 | 分类号: | G16C20/20;G16C20/50;G16C20/70;G16C20/90;G06K9/62 |
代理公司: | 广州市合本知识产权代理事务所(普通合伙) 44421 | 代理人: | 刘洁 |
地址: | 100084 北京市海淀区农大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 可变 半径 高斯球 分子 体积 计算方法 以及 用于 药物 虚拟 筛选 三维 相似 打分 方法 | ||
1.基于可变半径高斯球的分子体积计算方法,其特征在于:该方法包括以下步骤:
读入分子的三维结构信息,所述三维结构信息包括分子中每个原子的类型及其坐标数值;
根据分子中各原子的类型得到原子的范德华半径,将三维结构信息转换为一组代表分子中各原子的高斯球,每个高斯球的半径不等于原子的范德华半径,而是小于其范德华半径,高斯球半径的计算公式如下:
其中:对于原子i,其范德华半径为Ri,体积为Vi,该原子与其它原子总的重叠体积为Oi;α为可调参数,取值在0~1.0之间,通过虚拟筛选的测试数据调整到最佳分类效果;通过以上公式计算得到调整后的高斯球半径ri,高斯球的位置坐标与原子的坐标相同;
计算分子中高斯球组的叠合体积,其中第ij个高斯球组包括第i个原子对应的高斯球和第j个原子对应的高斯球,第ij个高斯球组的叠合体积为vij;计算分子的体积即为其自身的叠合体积N是分子中原子的总数。
2.一种用于药物虚拟筛选的分子三维相似度打分方法,其特征在于:包括以下步骤:
步骤一、基于可变半径高斯球的分子体积计算
该步骤是采用权利要求1的计算方法;
步骤二、基于可变半径高斯球,计算用于相似性比较的两分子的各类特征参数
分别读取用于相似性比较的两分子的拓扑结构和三维结构信息,获取各类特征参数,所述特征参数包括:两分子的原子个数差异(F1);两分子的可旋转化学键个数(F2);两分子的体积差异(F3);两分子的形状相似度(F4);两分子氢键受体的相似度(F5);两分子氢键供体的相似度(F6);两分子芳香环的相似度(F7);两分子的疏水中心相似度(F8);两分子的正电基团相似度(F9);以及两分子的负电基团相似度(F10);其中:
F1的计算方式是通过读入两分子各自的拓扑结构信息,然后取两分子原子总数差值的绝对值;
F2的计算方式是在F1计算方式的基础上,判断每个化学键是否为可旋转键,得到两分子各自的可旋转键总数,然后取两分子可旋转键总数差值的绝对值;
F3的计算方式是在F1计算方式的基础上,根据两分子中各原子的类型得到原子的范德华半径,采用步骤一的方法,计算两分子各自自身的叠合体积为N是分子中原子的总数;然后取两分子自身叠合体积的差值的绝对值;
F4的计算方式是在F3计算方式的基础上,计算两分子在多种叠合情况下的分子间叠合体积其中vij为第一分子中的第i个原子与第二个分子中的第j个原子的叠合体积,N是第一个分子中原子的总数,M是第二个分子中原子的总数,选择其中的最大值作为最大分子间体积;计算两分子的形状相似度其中VA是第一个分子的自身叠合体积,VB是第二个分子的自身叠合体积;
F5的计算方式是在F1计算方式的基础上,找出两分子中氢键受体位置;计算两分子中各自氢键受体的叠合体积其中Fij为第i个氢键受体与第j个氢键受体之间的叠合体积;计算两分子在多种叠合情况下的分子间氢键受体的叠合体积其中Fij为第一分子中的第i个氢键受体与第二个分子中的第j个氢键受体的叠合体积,N是第一个分子中氢键受体的总数,M是第二个分子中氢键受体的总数,选择其中的最大值作为最大分子间氢键受体的叠合体积;计算两分子的氢键受体相似度其中PA是第一个分子中氢键受体的自身叠合体积,PB是第二个分子中氢键受体的自身叠合体积;
F6的计算方式与F5的计算方式相同,只需要将两分子中的氢键受体替换为氢键供体;
F7的计算方式与F5的计算方式相同,只需要将氢键受体替换为芳香环;
F8的计算方式与F5的计算方式相同,只需要将氢键受体替换为疏水中心;
F9的计算方式与F5的计算方式相同,只需要将氢键受体替换为正电基团;
F10的计算方式与F5的计算方式相同,只需要将氢键受体替换为负电基团;
步骤三、训练深度学习模型
采用DUD-E数据集,数据集中有102个生物靶点信息,每个靶点都有对应的活性分子集与Decoy分子集,对每个靶点的数据做如下处理:
选取每个靶点的活性分子集中的晶体结构分子作为模板分子,分别与该靶点的活性分子集的其他分子,以及Decoy分子集的所有分子,均按照步骤二中的计算方式,计算模板分子与其他分子中两两分子的F1~F10特征参数,使每个靶点都计算得到一套特征参数数据;
使用深度学习方法进行建模,将上述计算得到的每个靶点的特征参数数据作为输入数据,而分子的活性与否作为二分类的目标函数,模型优化的方向是使得所有靶点在分子活性预测的误差最小化,从而使AUC值的平均值最大;完成训练后,即得到最终的深度学习模型;
步骤四、深度学习模型的外部验证
采用MUV数据集验证深度学习模型的泛化能力,选取MUV数据集中的10个生物靶点信息,每个靶点都有对应的活性分子集与Decoy分子集;选取每个靶点的活性分子集中的晶体结构分子作为模板分子,分别与该靶点的活性分子集的其他分子,以及Decoy分子集的所有分子,均按照步骤二中的计算方式,计算模板分子与其他分子中两两分子的F1~F10特征参数;将这些特征参数输入已经训练完成的深度学习模型,计算得到每个靶点虚拟筛选的AUC值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中大唯信科技有限公司,未经北京中大唯信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110913294.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:弹性支撑件、电解槽、制造设备和制造方法
- 下一篇:冰箱