[发明专利]基于综合毒性作用模式分类构建的QSAR模型预测有机化合物对大型蚤急性毒性的方法有效
申请号: | 201510347479.0 | 申请日: | 2015-06-18 |
公开(公告)号: | CN105005641B | 公开(公告)日: | 2018-01-16 |
发明(设计)人: | 乔显亮;刘羽晨;李雪花;陈景文 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50;G06K9/66 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 李宝元,梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 综合 毒性 作用 模式 分类 构建 有机化合物 大型 急性 qsar 模型 | ||
1.一种基于综合毒性作用模式分类构建的QSAR模型预测有机化合物对大型蚤急性毒性的方法,其特征在于,
(1)根据化合物的结构判断该化合物是否属于有机磷酸酯类化合物、氨基甲酸酯类化合物、DDT类杀虫剂、氯化脂环族杀虫剂、拟除虫菊酯类农药中任意一种,若符合则该化合物属于特殊反应活性化合物class III,若不符合继续下一步;
(2)判断化合物结构是否属于以下各物质中的一种:
a、苯酚,苯胺或吡啶类化合物且含有四个及以上卤素取代;
b、苯酚或苯胺类化合物且含有一个以上硝基取代;
c、苯酚与芳香环通过偶氮双键连接形成的化合物;
d、含有如下结构之一的化合物:
-N=C=S、-S-C≡N、
H2N-NH2、-N=N--C≡C-C≡N、-N=C=O、
含此结构且logKow<1、含此结构且分子量<100道尔顿、-S-S-、脂肪胺且logKow<1;
其中:R1=H,CH3;R2=H,CH3,C2H5;X=卤素,Y=C,O,N;Z=O,N;L=离去基团;所述的离去基团为能够固定孤立负电荷的结构;
若符合,则该化合物属于反应活性化合物class II,若不符合,继续下一步;
(3)判断化合物结构是否属于以下各物质中的一种:
a、只含C,H,O或卤素,当该物质为酯时,其logKow>2;
b、只含C,H,N,当该物质为吡啶时,其logKow>1;当该物质为脂肪胺时,其MW>100;
c、只含C,H,O,N;
d、含有如下结构之一的化合物:
且其取代基中只含C,H,O,S;
若符合,则该化合物属于麻醉剂化合物class I,若不符合,则该化合物不为上述三类中的任何一类;
搜集到871个大型蚤毒性数据EC50,得到48h-logEC50值,根据上述综合毒性作用模式分类方法,分类得到403个麻醉剂化合物class I,380个反应活性化合物class II,88个特殊反应活性化合物class III;
按照4:1的比例将上述三类化合物的大型蚤毒性数据分别分成训练集和验证集,训练集用于构建预测模型,验证集用于建模后的外部验证;对上述三类化合物进行结构优化,基于优化的结构,计算化合物的Dragon描述符,采用逐步多元线性回归方法构建模型;
模型如下:
Class I
-logEC50=1.783+0.543MLOGP+0.218X3sol-1.603nArCOOH-0.769O-056+0.488GATS1s
其中MLOGP表示Moriguchi辛醇水分配系数,X3sol表示3阶溶剂连接性指数,nArCOOH表示芳香环上羧基的个数,O-056表示化合物中醇结构信息,GATS1s是I-state加权的Geary自相关系数;
所得模型训练集化合物个数为n=322,每个描述符的变量膨胀因子均小于10,自变量与因变量组成的矩阵MYX以及自变量矩阵MX的K相关指数KXY和KXX满足KXX=0.230<KXY=0.358,表明模型不存在多重相关性;模型的拟合能力由R2和均方根误差RMSE表征,R2=0.819,RMSE=0.623,表明该模型具有良好的拟合能力;模型的稳健性由内部验证的交叉验证系数Q2LOO和Bootstrapping方法所得Q2BOOT评价,Q2LOO=0.812,Q2BOOT=0.796,R2和Q2之差远小于0.3,该模型不存在过拟合现象,具有良好的稳健性;在模型的外部验证过程中,验证集数据个数next=81,外部决定系数R2ext为0.752,外部验证系数Q2ext为0.750,验证集的均方根误差RMSEext为0.657,表明该模型具有良好的外部预测能力;
Class II
-logEC50=4.709+0.075MLOGP2+0.022D/Dtr03+1.923Ks-1.637GATS1p+0.087F08[C-C]-0.012SAdon
其中MLOGP2表示Moriguchi辛醇-水分配系数的平方,D/Dtr03表示化合物中三元环结构,Ks表示I-state加权的WHIM描述符,GATS1p表示极性加权的Geary自相关系数,F08[C-C]表示表示拓扑距离8中的C-C键的出现频率,SAdon表示供体原子表面积;
所得模型训练集化合物个数为n=304,每个描述符的变量膨胀因子均小于10,KXX=0.252<KXY=0.341,表明模型不存在多重相关性;模型的R2=0.746,RMSE=0.717,表明该模型具有良好的拟合能力;模型的Q2LOO和Q2BOOT分别为0.729和0.797,R2和Q2之差远小于0.3,可认为该模型不存在过拟合现象,具有良好的稳健性;在模型的外部验证过程中,验证集数据个数next=76,R2ext=0.770,Q2ext=0.765,RMSEext=0.780,表面该模型具有良好的外部预测能力;
Class III
-logEC50=6.709+0.292RDF115m-1.01GATS5s+1.882GGI5-0.59CATS2D_04_DA+141.812Psi_i_0d
其中RDF115m表示质量加权的径向分布函数,GATS5s表示I-state加权的Geary自相关描述符,GGI5表示5阶拓扑电荷指数,CATS2D_04_DA表示lag 04处的CATS2D供体受体,Psi_i_0d表示固有状态下的伪链接指数;
所得模型训练集化合物个数为n=71,每个描述符的变量膨胀因子均小于10,KXY和KXX分别为0.185和0.292,ΔK=KXX-KXY=0.107>0,表明模型不存在多重相关性;模型的R2为0.703,RMSE为0.369,说明模型具有较好的拟合能力;模型的Q2LOO为0.637,Q2BOOT为0.771说明模型的稳健性较好;在模型的外部验证过程中,验证集数据个数next=17,R2ext=0.667,Q2ext=0.638,RMSEext=0.821,表面该模型具有良好的外部预测能力。
2.根据权利要求1所述的一种基于综合毒性作用模式分类构建的QSAR模型预测有机化合物对大型蚤急性毒性的方法,其特征在于,所述的化合物包括烷烃类化合物、烯烃类化合物、炔烃类化合物、芳香烃类化合物、醇类化合物、醛类化合物、酮类化合物、醚类化合物、酸类化合物、脂类化合物、卤代类化合物、含氮化合物、含硫化合物、含磷化合物;毒性作用模式包括麻醉作用、氧化磷酸化解偶联作用、呼吸抑制作用、乙酰胆碱酶抑制作用、中枢神经系统控制作用的多种毒性作用模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510347479.0/1.html,转载请声明来源钻瓜专利网。