[发明专利]一种快速虚拟筛选人体小肠易吸收药物的方法有效
申请号: | 201510069837.6 | 申请日: | 2015-02-10 |
公开(公告)号: | CN104636619B | 公开(公告)日: | 2017-11-14 |
发明(设计)人: | 朱祥伟 | 申请(专利权)人: | 青岛农业大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 青岛中天汇智知识产权代理有限公司37241 | 代理人: | 郝团代 |
地址: | 266000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种快速虚拟筛选人体小肠易吸收药物的方法,包括以下步骤一、化合物小肠吸收数据库的优化;二、变量预处理;三、重量变量筛选及构建线性模型;四、新型化合物小肠吸收率预测。本发明依据上述重要结构参数,建立人体小肠内药物吸收的线性统计预测模型,将新型化合物的结构参数代入模型中,计算候选药物小分子的人体小肠吸收率,判断新型分子是否适合作为临床上口服药物使用,相比复杂的机器学习模型,本发明建立的线性统计模型原理简单,方便使用,计算工作量少,适合做前导药物小分子的大规模筛选。 | ||
搜索关键词: | 一种 快速 虚拟 筛选 人体 小肠 吸收 药物 方法 | ||
【主权项】:
一种快速虚拟筛选人体小肠易吸收药物的方法,其特征在于,包括以下步骤:一、化合物小肠吸收数据库的优化:将已有的化合物分子结构及其小肠吸收率数值收集形成化合物小肠吸收数据库,分别对化合物数据的结构与活性进行优化,得到具有明确的小肠吸收率的单一化合物数据库,化合物的分子量集中在50~500之间;所述优化方式为剔除有机金属化合物、混合物,消除顺反异构,消除化合物结构手性碳结构,将剩余的所有化合物结构都标准化,经过排序,对于小肠吸收率相同的重复化合物保留一个,对于吸收率数值不同的重复化合物,根据其重复个数,若重复数目为2,计算两重复化合物小肠吸收率的平均值M,若|S1-M|/M>0.20,则表示活性值差异大,舍弃该化合物,若|S1-M|/M在0.20以内,则以平均值M为该化合物实际小肠吸收率;若重复化合物数目为3个或超过3个,则采用狄克逊Dixon检验法,剔出异常值后,对剩余小肠吸收值取平均值代表该化合物实际的小肠吸收率,S1表示两化合物中一个的吸收率;二、描述符计算与变量预处理:将步骤一所得化合物信息利用不同的化合物描述符计算软件,计算不同类型的描述符,为解决描述符中存在大量的近似常量或共线性高的变量,首先利用如下方法对描述符进行归一化处理xs=(xi‑xmin)/(xmax‑xmin),其中,xs为归一化后描述符的值,xi为描述符原始值,xmax与xmin分别表示描述符的最大与最小值,通过上述公式xs=(xi‑xmin)/(xmax‑xmin)将描述符值归一到0到1之间,同时记录每个描述符的最小值xmin和最大值xmax,删除标准偏差小于0.001的描述符,若两个描述符的相关性大于0.90,则删除其中一个;三、重要变量筛选及线性模型构建:基于步骤一中得到的化合物活性数据和步骤二中计算的结构描述符数据利用变量筛选方法,对每个类型的描述符变量依重要性大小进行排序,挑选部分重要描述符,以化合物的小肠吸收率为因变量,采用多元线性回归方法构建的预测化合物小肠吸收率的线性方程模型,对于每种类型的描述符,构建一组多元线性回归方程;四、预测药物前导化合物的人小肠吸收率:药物前导化合物分子结构按照步骤一中的结构优化方法优化,按步骤二中的软件计算药物前导化合物的化学结构描述符,依据步骤二中记录每种描述符的最小值xmin和最大值xmax,对药物前导化合物的描述符进行归一化处理,最终依步骤三选取的重要描述符,将新化合物中对应描述符的数值代入步骤三构建的多元线性回归方程,计算出活性,即该药物前导化合物的人小肠吸收率预测值,同时,将不同线性方程的预测值平均,即是药物前导化合物分子的最终小肠吸收预测值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛农业大学,未经青岛农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510069837.6/,转载请声明来源钻瓜专利网。
- 上一篇:电池监视装置以及电池监视装置的诊断方法
- 下一篇:感测装置
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用