[发明专利]基于机器学习和集成方法的化合物血脑屏障渗透性预测方法在审
申请号: | 202110062505.0 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112802561A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 刘宏生;刘黎黎;刘苗;张力;赵健 | 申请(专利权)人: | 辽宁大学 |
主分类号: | G16C20/30 | 分类号: | G16C20/30;G06N20/00 |
代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 王洋 |
地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 集成 方法 化合物 血脑屏障 渗透性 预测 | ||
1.一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,其步骤为:
第一步,计算化合物分子指纹;
第二步,化合物分子指纹的预处理:通过低变异特征过滤和高度相关特征过滤,对步骤一中的化合物分子指纹进行过滤;
第三步,采用支持向量机、随机森林以及极限梯度提升算法,对过滤后的化合物分子指纹分别构建预测化合物血脑屏障渗透性的基分类器;
第四步,采用集成方法使用第三步中的基分类器构建预测化合物血脑屏障渗透性的集成模型。
2.根据权利要求1所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第二步中,包括有:
(1)低变异特征过滤:通过计算“频率比”和“唯一值的百分比”来判断样本中的低变异特征,低变异特征即为所有样本中相似或几乎相同的特征,将其删除。
(2)高度相关特征过滤:删除与其它分子指纹的Tanimoto相关系数大于50%-95%的高度相关特征。
3.根据权利要求2所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,所述的(1)中,如果存在频率比大于95/5且唯一值的百分比小于10的特征,则判定该特征为低变异特征。
4.根据权利要求1所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第三步中,具体方法为:使用三种机器学习算法:支持向量机、随机森林以及极限梯度提升,分别与第二步最终的分子指纹结合,构建相应的基分类器。
5.根据权利要求1所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,所述的步骤4中,具体方法为:通过融合第三步得到的基分类器来构建集成模型,为Ensemble-Top1至Ensemble-TopN,N为基分类器个数;将上述的基分类器按照AUC值从大到小的顺序排列,Ensemble-Top1模型是具有最高AUC的基分类器模型。Ensemble-Top2模型由AUC值排列在前两名的基分类器融合而成,以此类推,Ensemble-Top3到Ensemble-TopN模型由AUC值排列在前3-N名的基分类器融合而成;最终,选择具有最高AUC值的模型作为最终的集成模型。
6.根据权利要求5所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,得到集成模型后,对集成模型进行内部交叉验证和外部验证集验证,评估模型性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110062505.0/1.html,转载请声明来源钻瓜专利网。