[发明专利]一种基于结构和等级分类的药物蛋白结合率预测方法及系统有效
申请号: | 201910742202.6 | 申请日: | 2019-08-13 |
公开(公告)号: | CN110689919B | 公开(公告)日: | 2023-03-17 |
发明(设计)人: | 相小强;袁雅文;张政;常硕;张彦春;李治纲;蔡卫民;田凌浩 | 申请(专利权)人: | 复旦大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B20/00;G16B40/00 |
代理公司: | 苏州知途知识产权代理事务所(普通合伙) 32299 | 代理人: | 张锦波 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 等级 分类 药物 蛋白 结合 预测 方法 系统 | ||
1.一种基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,所述预测方法包括如下步骤:
(1)收集不同药物分子的蛋白结合率数据值以及相应的结构编码,并对收集的药物分子的蛋白结合率数据值进行处理,去除重复的药物分子;
(2)根据步骤(1)得到的药物分子的蛋白结合率数据值分为三个等级的数据集,即:高结合药物数据集、中结合药物数据集和低结合药物数据集,并将三个等级的数据集分别划分训练集和测试集;
(3)计算药物分子的分子描述符的数据值,用所述的分子描述符编码分子结构,同时对分子描述符进行相关性筛选,筛选出与药物蛋白结合率最相关的一组分子描述符;
(4)根据步骤(3)得到的分子描述符,采用机器学习算法,分别建立三个等级的定量预测模型;
(5)当对某一药物的药物蛋白结合率进行预测时,首先根据其分子描述符参数判断药物蛋白结合率等级,并将所述分子描述符参数代入对应等级的定量预测模型对药物蛋白结合率进行预测;
步骤(2)中,当PPB≥0.8时,划分到高结合药物数据集;当0.4≤PPB≤0.8时,划分到中结合药物数据集;当PPB0.4时,划分到低结合药物数据集;
步骤(3)中,使用Open Babel软件将H、M、L三个等级的数据集的结构编码转化为sdf格式的3D结构集;
在步骤(3)计算得到的分子描述符中,包含字符、数值、非数值、空值和无穷大;对于每个分子描述符,将字符、空值转换为非数值,将较大的数值转换为1000000,将较小的数值转换为-1000000;
计算每个分子描述符上非数值的数量M,如果M/6471 0.2,则认为该分子描述符信息缺失过多,将该分子描述符所有值转换为0;否则,认为该分子描述符缺失的信息是可以接受的,用剩余数值的平均值填充这些缺失的值;
对清理后的分子描述符数据产生一个副本集,对该副本集中的每个分子描述符进行归一化,然后计算每个分子描述符的方差V,如果V 0.005,则认为该分子描述符是冗余的,将其去除;
如有部分分子的特征相似或完全相等,而且PPB相差很大,则认定这部分分子是离群点,进行去除;
步骤(1)中,对药物分子的蛋白结合率数据值进行处理的方法为:
(a)对收集的药物分子的蛋白结合率数据值进行处理,对蛋白结合率数据值属于一个数值范围的药物分子,确定一个固定值的蛋白结合率;
(b)根据药物分子的命名,结构编码以及性质,对重复的药物分子进行排查;
(c)对药物分子结构进行简单的处理;
(a)中,若收集的蛋白结合率数据值在一个数值区间内,则取该数值区间的均值作为药物分子的蛋白结合率数据值;
若收集的蛋白结合率大于或小于定值,如果有更可靠的数据来源,则选择更可靠来源的数据值作为药物分子的蛋白结合率数据值,如果没有,则取该定值。
2.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,步骤(3)中,采用PaDEL-Descriptor软件计算分子描述符。
3.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,步骤(4)中,采用多种机器学习算法建立定量预测模型,同时对各定量预测模型的预测结果进行平均,得到平均共识模型。
4.根据权利要求3所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,所述的机器学习算法包括随机森林、提升树,k-最近邻居,支持向量回归和梯度提升回归。
5.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,步骤(2)中,将三个等级的数据集分别按8:2的比例划分为训练集以及测试集。
6.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,(b)中,对重复的药物分子进行排查的方法为:重复的药物分子中,PPB值相同的,去除重复的即可;PPB值不同的,进行比较后,取来源更可靠的。
7.一种药物蛋白结合率预测系统,其特征在于,能够执行如权利要求1-6任一项所述的基于结构和等级分类的药物蛋白结合率预测方法,
所述药物蛋白结合率预测系统包括:
数据处理模块,用于对收集得到的药物分子的蛋白结合率数据值进行处理,去除重复的药物分子;
等级划分模块,用于将药物分子的蛋白结合率数据值分为三个等级的数据集,即:高结合药物数据集、中结合药物数据集和低结合药物数据集;
分子描述符计算模块,用于计算分子描述符的数据值,并进行相关性筛选,选出与药物蛋白结合率最相关的一组分子描述符;
建模模块,用于采用机器学习算法,分别建立三个等级的定量预测模型;
预测模块,用于将药物分子的分子描述符代入对应等级的定量预测模型,对药物分子的蛋白结合率进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910742202.6/1.html,转载请声明来源钻瓜专利网。