[发明专利]基于过渡金属保护水生生物水质基准的CCCs预测方法有效
申请号: | 201710854588.0 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107391960B | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 王颖;吴丰昌;冯承莲;穆云松;秦宁 | 申请(专利权)人: | 中国环境科学研究院 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京精金石知识产权代理有限公司 11470 | 代理人: | 黄福伟 |
地址: | 100012 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 过渡 金属 保护 水生 生物 水质 基准 cccs 预测 方法 | ||
1.过渡金属保护水生生物水质基准的CCCs预测方法,其特征在于,包括以下步骤:
S1.数据选取
选取具有基准连续浓度值的过渡金属为样本元素,选择所述过渡金属离子结构参数表征金属离子的各种物理化学性质,作为变量参数用以建模;
S2.PPCR模型构建
(1)样本元素的结构参数与样本元素的基准连续浓度值进行pearson相关系数检验,得到变量间的线性相关程度;
(2)对满足P值小于0.1的条件的结构参数与样本元素CCCs构建PPCR方程;建立PPCR模型;
S3.模型拟合优度和稳健性检验
内部验证采用残差标准误RSE、决定系数R2、F统计量和调整过的R2四种统计量描述所述PPCR模型的拟合程度;R2和RSE的计算公式如公式1和公式2所示;
其中,yi是第i种金属的CCCs值,是第i种金属的预测CCCs值,是i种金属的CCCs推荐值的平均值;n是训练集的金属个数;
采用k折交叉验证法对所述PPCR模型进行内部验证,以期检验模型的稳健性;
S4.最优预测空间的评价
使用William plot验证最优预测空间;William plot具体是指横坐标为模型中样本的杠杆值,纵坐标为模型中样本的标准残差值的图;
利用公式3计算杠杆值hi,利用公式4计算hi*;如果hi超过hi*,则说明该金属的CCCs值超出最优预测空间;
其中,hi是指第i个金属的杠杆值,xi代表PPCR模型中第i个金属的理化性质值排列成一行的行向量,代表xi的转置向量,X代表xi的逆向量,XT代表X的转置向量,hi*代表所有金属不超出最优预测空间的杠杆值最大值;pi是PPCR模型中使用的变量个数,ni是样本个数;
S5.基准连续浓度的预测
利用PPCR模型预测得到元素周期表中第四、五、六周期和锕系的56种过渡金属的CCCs值;
其中,
步骤S2中,若获得的PPCR方程的R2>0.45,且P<0.06的表征金属离子物理化学性质的结构参数之间的相关系数均大于0.5,利用主成分分析回归的方法将所述结构参数之间的相关性压缩,获得更准确的回归关系,从而得到更精确的预测模型及预测结果。
2.根据权利要求1所述的预测方法,其特征在于,所述具有基准连续浓度值的过渡金属为7种,分别为Cr,Ni,Cu,Zn,Fe,Cd和Hg。
3.根据权利要求1所述的预测方法,其特征在于,所述金属离子结构参数包括26种,分别为原子序数、相对原子质量、原子半径、共价半径、离子半径、熔点、温度为300K时的密度、汽化热的电离电位变化、沸点、OX和OX-1之间的电离势、电化学势、电负性、第一水解常数、共价常数、原子电离电势、软指数、电离势、电子密度、离子电荷、电负性指数、相对柔软度、极化力参数一、极化力参数二、极化力参数三、类极化力参数一和类极化力参数二。
4.根据权利要求1所述的预测方法,其特征在于,拥有最小RSE值和最大R2的模型被认为是最佳模型。
5.根据权利要求1所述的预测方法,其特征在于,所述k折交叉验证法中,通过计算因变量预测值与原抽出样本的因变量的观测值yi之间的相关系数及交叉验证均方根误差RMSECV来评价模型内部预测能力;相关系数最小可接受的值大于0.5。
6.根据权利要求1-5任一项所述的预测方法,其特征在于,所述预测方法使用统计软件进行统计分析;所述统计软件为SAS、MATLAB和R语言软件中的一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国环境科学研究院,未经中国环境科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710854588.0/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用