[发明专利]基于综合毒性作用模式分类构建的QSAR模型预测有机化合物对大型蚤急性毒性的方法有效

专利信息
申请号: 201510347479.0 申请日: 2015-06-18
公开(公告)号: CN105005641B 公开(公告)日: 2018-01-16
发明(设计)人: 乔显亮;刘羽晨;李雪花;陈景文 申请(专利权)人: 大连理工大学
主分类号: G06F17/50 分类号: G06F17/50;G06K9/66
代理公司: 大连理工大学专利中心21200 代理人: 李宝元,梅洪玉
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于综合毒性作用模式分类构建的有机化合物对大型蚤急性毒性QSAR模型。首先发展了一个综合的毒性作用模式分类方法,采用该方法基于结构特征对化合物进行分类。将化合物根据该方法进行分类后,在获得化合物分子结构描述符的基础上,通过多元线性回归方法,构建了EC50模型,可快捷、高效地预测有机化合物对大型蚤急性效应浓度的EC50值;并依照经济合作与发展组织关于QSAR模型构建和验证导则,对模型拟合优度、稳健性和预测能力进行了表征;模型应用域明确;预测模型简明、易于程序化,能为有机化学品的急性毒性评价提供重要数据支持。
搜索关键词: 基于 综合 毒性 作用 模式 分类 构建 有机化合物 大型 急性 qsar 模型
【主权项】:
一种基于综合毒性作用模式分类构建的QSAR模型预测有机化合物对大型蚤急性毒性的方法,其特征在于,(1)根据化合物的结构判断该化合物是否属于有机磷酸酯类化合物、氨基甲酸酯类化合物、DDT类杀虫剂、氯化脂环族杀虫剂、拟除虫菊酯类农药中任意一种,若符合则该化合物属于特殊反应活性化合物class III,若不符合继续下一步;(2)判断化合物结构是否属于以下各物质中的一种:a、苯酚,苯胺或吡啶类化合物且含有四个及以上卤素取代;b、苯酚或苯胺类化合物且含有一个以上硝基取代;c、苯酚与芳香环通过偶氮双键连接形成的化合物;d、含有如下结构之一的化合物:‑N=C=S、‑S‑C≡N、H2N‑NH2、‑N=N‑‑C≡C‑C≡N、‑N=C=O、含此结构且logKow<1、含此结构且分子量<100道尔顿、‑S‑S‑、脂肪胺且logKow<1;其中:R1=H,CH3;R2=H,CH3,C2H5;X=卤素,Y=C,O,N;Z=O,N;L=离去基团;所述的离去基团为能够固定孤立负电荷的结构;若符合,则该化合物属于反应活性化合物class II,若不符合,继续下一步;(3)判断化合物结构是否属于以下各物质中的一种:a、只含C,H,O或卤素,当该物质为酯时,其logKow>2;b、只含C,H,N,当该物质为吡啶时,其logKow>1;当该物质为脂肪胺时,其MW>100;c、只含C,H,O,N;d、含有如下结构之一的化合物:且其取代基中只含C,H,O,S;若符合,则该化合物属于麻醉剂化合物class I,若不符合,则该化合物不为上述三类中的任何一类;搜集到871个大型蚤毒性数据EC50,得到48h‑logEC50值,根据上述综合毒性作用模式分类方法,分类得到403个麻醉剂化合物class I,380个反应活性化合物class II,88个特殊反应活性化合物class III;按照4:1的比例将上述三类化合物的大型蚤毒性数据分别分成训练集和验证集,训练集用于构建预测模型,验证集用于建模后的外部验证;对上述三类化合物进行结构优化,基于优化的结构,计算化合物的Dragon描述符,采用逐步多元线性回归方法构建模型;模型如下:Class I‑logEC50=1.783+0.543MLOGP+0.218X3sol‑1.603nArCOOH‑0.769O‑056+0.488GATS1s其中MLOGP表示Moriguchi辛醇水分配系数,X3sol表示3阶溶剂连接性指数,nArCOOH表示芳香环上羧基的个数,O‑056表示化合物中醇结构信息,GATS1s是I‑state加权的Geary自相关系数;所得模型训练集化合物个数为n=322,每个描述符的变量膨胀因子均小于10,自变量与因变量组成的矩阵MYX以及自变量矩阵MX的K相关指数KXY和KXX满足KXX=0.230<KXY=0.358,表明模型不存在多重相关性;模型的拟合能力由R2和均方根误差RMSE表征,R2=0.819,RMSE=0.623,表明该模型具有良好的拟合能力;模型的稳健性由内部验证的交叉验证系数Q2LOO和Bootstrapping方法所得Q2BOOT评价,Q2LOO=0.812,Q2BOOT=0.796,R2和Q2之差远小于0.3,该模型不存在过拟合现象,具有良好的稳健性;在模型的外部验证过程中,验证集数据个数next=81,外部决定系数R2ext为0.752,外部验证系数Q2ext为0.750,验证集的均方根误差RMSEext为0.657,表明该模型具有良好的外部预测能力;Class II‑logEC50=4.709+0.075MLOGP2+0.022D/Dtr03+1.923Ks‑1.637GATS1p+0.087F08[C‑C]‑0.012SAdon其中MLOGP2表示Moriguchi辛醇‑水分配系数的平方,D/Dtr03表示化合物中三元环结构,Ks表示I‑state加权的WHIM描述符,GATS1p表示极性加权的Geary自相关系数,F08[C‑C]表示表示拓扑距离8中的C‑C键的出现频率,SAdon表示供体原子表面积;所得模型训练集化合物个数为n=304,每个描述符的变量膨胀因子均小于10,KXX=0.252<KXY=0.341,表明模型不存在多重相关性;模型的R2=0.746,RMSE=0.717,表明该模型具有良好的拟合能力;模型的Q2LOO和Q2BOOT分别为0.729和0.797,R2和Q2之差远小于0.3,可认为该模型不存在过拟合现象,具有良好的稳健性;在模型的外部验证过程中,验证集数据个数next=76,R2ext=0.770,Q2ext=0.765,RMSEext=0.780,表面该模型具有良好的外部预测能力;Class III‑logEC50=6.709+0.292RDF115m‑1.01GATS5s+1.882GGI5‑0.59CATS2D_04_DA+141.812Psi_i_0d其中RDF115m表示质量加权的径向分布函数,GATS5s表示I‑state加权的Geary自相关描述符,GGI5表示5阶拓扑电荷指数,CATS2D_04_DA表示lag 04处的CATS2D供体受体,Psi_i_0d表示固有状态下的伪链接指数;所得模型训练集化合物个数为n=71,每个描述符的变量膨胀因子均小于10,KXY和KXX分别为0.185和0.292,ΔK=KXX‑KXY=0.107>0,表明模型不存在多重相关性;模型的R2为0.703,RMSE为0.369,说明模型具有较好的拟合能力;模型的Q2LOO为0.637,Q2BOOT为0.771说明模型的稳健性较好;在模型的外部验证过程中,验证集数据个数next=17,R2ext=0.667,Q2ext=0.638,RMSEext=0.821,表面该模型具有良好的外部预测能力。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510347479.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top