[发明专利]基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法无效
申请号: | 200910187937.3 | 申请日: | 2009-10-17 |
公开(公告)号: | CN101673321A | 公开(公告)日: | 2010-03-17 |
发明(设计)人: | 李雪花;乔显亮;陈景文 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 大连理工大学专利中心 | 代理人: | 侯明远 |
地址: | 116024辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法,属于面向环境风险评价的定量结构/活性关系(QSAR)技术领域。其特征是采用原子中心碎片表征化合物的分子结构,并通过逐步回归和偏最小二乘回归筛选原子中心碎片组合,构建了预测KOA的基团贡献模型。所构建的KOA基团贡献模型,经内部验证和外部验证证实了其稳健性和预测能力,并基于范围、距离方法、概率密度法表征了基团贡献模型的应用域,明确了模型的应用范围,保证了预测准确度。本发明的效果和益处是能够快速预测大通量化合物的KOA,且获得KOA的成本低廉,有助于大批量KOA数据的获取,对于化学品的环境监管和风险评价具有重要意义。 | ||
搜索关键词: | 基于 分子结构 有机 污染物 辛醇 空气 分配 系数 快速 预测 方法 | ||
【主权项】:
1、一种基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法,首先判断是否属于基团贡献模型的应用域内化合物,如果结果为域外化合物,则不能进行预测,反则画出化合物的分子结构保存为MOL格式;其次计算原子中心碎片(ACF);最后利用基团贡献模型和列出的23个基团贡献值,计算未知化合物的正辛醇/空气分配系数(KOA)值;其特征在于如下具体步骤:(1)从文献中收集272个多种类有机化合物的logKOA值,并采用ACF用于表征化合物的分子结构特征;(2)采用逐步回归和PLS回归筛选ACF,从而构建预测KOA的基团贡献模型;第一步,采用逐步回归方法初步筛选ACF;第二步,基于逐步回归初步筛选的ACF,采用Simca(Version 6.0)软件完成变量的进一步筛选和PLS回归;基于PLS回归,筛选变量的过程如下:先建立包含所有变量的PLS模型,然后将VIP小于1的变量分别去除一次,得到一系列新的方程,选择其中Qcum2值最大的模型,若有几个方程的Qcum2值相等,则比较变量投影重要性指标(VIP),选择删除了VIP值相对较小的模型;依此原则,重复上述变量删除过程,直到模型中只存在VIP值大于1的变量为止;最后,综合评价交叉验证的Qcum2,偏最小二乘的主成分个数(A),变量的个数(K),实测值与拟合值之间的相关系数(R),显著性水平(p)和均方根误差(RMSE),选择最优的PLS模型;(3)logKOA的基团贡献模型是以碎片出现的次数为自变量,logKOA为因变量建立的多元回归模型;模型的表达式如下:log K OA = C 0 + Σ i = 1 a n i f i - - - ( 1 ) ]]> 其中,ni为i碎片在分子结构中出现的次数;fi为基团贡献值;C0为回归常数,即当某分子结构中不存在模型定义的碎片时,该化合物logKOA的理论外推值;本发明的KOA基团贡献模型的基团贡献值如表1所示;表1logKOA预测模型的基团贡献值其中,C1,C2,C3,C4:分别表示连有1,2,3,4个杂原子的碳;“R”表示通过C原子连接的任意一个基团;“X”表示带负电子的原子(O,N,S,P,Se,卤原子);“Al”和“Ar”分别表示脂肪族和芳香族;“..”表示芳环上的单键,例如在吡咯分子中的C-N;(4)内部验证通过将初始训练集中的272个数据点平均分成5个子集,然后每次去除1个子集,采用剩下的数据点作为训练集重新建模,并验证被去除的子集,计算5次最终得到交叉验证系数Qcv2用于表征模型的稳定性和预测能力;另外,本发明还通过所构建的基团贡献模型预测未参与建模的79个外部验证集化合物的logKOA,评价模型的预测能力;(5)分别基于描述符范围法、预测变量(logKOA)的范围法、欧式距离法、城市街区距离法、概率密度法表征基团贡献模型的应用域;最后通过基于5种方法的应用域交集,表征基团贡献模型的综合应用域。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910187937.3/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用