[发明专利]药物设计中配体分子海量特征筛选方法有效
申请号: | 201710015626.3 | 申请日: | 2017-02-17 |
公开(公告)号: | CN106778032B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 吴建盛;张邱鸣;胡海峰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/70 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李湘群 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 药物 设计 中配体 分子 海量 特征 筛选 方法 | ||
本发明公开了药物设计中配体分子海量特征筛选方法。在基于配体的药物分子虚拟筛选中,由于配体分子数量巨大,使用目前最流行的ECFP方法产生的配体分子指纹特征的维数(每一维特征表示一个子结构)将会是海量的,甚至可达上千万维,在实际任务中会陷入“维数灾难”问题。本方法将使用基于EDPP准则的LASSO方法,对配体分子海量的ECFP分子指纹特征进行筛选,利用鲁棒性选择方法得到配体分子相关特征。配体分子的活性通常与少数子结构有关,本方法将快速并大幅去除不相关特征,选择鲁棒的相关特征,解决“维数灾难”问题,得到与配体活性相关的子结构,推动ECFP方法在药物设计中更广泛的应用。
技术领域
本发明涉及一种基于机器学习的配体分子特征筛选方法,属于计算机辅助药物设计的技术领域。
背景技术
近年来,如何提高药物虚拟筛选的有效性成为制药企业需要迫切解决的问题。由于大量的生物化学实验为提供了充足的数据,而机器学习的方法正好可以利用这些数据来帮助解决问题。
药物虚拟筛选分为基于靶标结构和基于配体的两类方法。基于靶标结构的药物虚拟筛选模拟化合物与靶标之间的物理相互作用来确定是否可能存在药效,如分子对接方法。基于配体的方法主要是在靶标结构未知的情况下,利用已有的数据对化合物的活性进行预测。这类方法最关键的是使用各种方法或分子指纹对化合物进行充分的描述,以研究该化合物是否具有类似活性或治病机理,或归纳得到对化合物活性起关键作用的一些基团的信息。在基于配体的药物虚拟筛选中,配体分子的分子指纹表征是关键。目前,面对海量的化合物分子,最流行的是使用ECFP(Extended-connectivity fingerprints)分子指纹方法进行表征。不同的ECFP分子指纹方法,比如ECFP8、ECFP12等,后面的数字代表配体包含子结构的半径大小,一般来说,半径越大,生成特征越多。由于在药物虚拟筛选中,化合物分子数量巨大,基于ECFP子结构方法产生的特征维数是巨大的。例如,强生制药公司2014年参与的、利用机器学习方法,研究过针对15个药物靶标、基于配体的虚拟筛选的问题,配体分子约为75万个,使用最新的ECFP12分子指纹对配体进行表征,每个配体分子的特征维数高达上千万维。
配体分子海量特征在实际任务中会陷入“维数灾难”问题,即数据样本稀疏、距离计算困难等问题,这是所有机器学习方法共同面临的严重障碍。若能从中选择出重要的特征或者去除不相关特征,往往会降低学习任务的难度,使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题会大为减轻。配体分子主要是通过药效基团与靶标分子进行作用,而药效基团通常与配体分子的少数子结构有关,即大多数子结构与配体分子的活性无关。如果把配体分子数据集考虑成矩阵,其每行表示一个样本,对应于一个配体分子,而每列表示一个特征,对应于一个特定的子结构。对配体海量特征进行筛选时,需要考虑特征具有的“稀疏性”,即矩阵中的很多列与配体分子的活性是没有关系的,通过特征选择去除这些列,则在实际的学习任务仅需要在较小的矩阵上进行,学习任务的难度可能有所降低,涉及的计算和存储开销会减少,学得模型的可解析性也会提高。最小绝对收缩选择算子(LASSO,Least Absolute Shrinkage and Selection Operator)可以很好地解决上面问题,它将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,并引入L1范数获得“稀疏”解和降低过拟合风险。考虑到配体分子的特征维数极有可能非常大,传统的LASSO方法时间开销大,也很难很好地解决此问题。本发明选择使用基于加强的对偶多面体投影准则(Enhanced Dual Polytope Projections,EDPP)的LASSO特征选择方法,来大幅加速配体海量特征筛选过程,仅去除掉大部分不相关的特征(即子结构),这样可以帮助理解与配体活性相关的子结构,并使得后续学习过程仅需在小部分特征上构建模型,大幅提高模型的学习效率。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710015626.3/2.html,转载请声明来源钻瓜专利网。