[发明专利]应用智能支持向量机对多环芳烃性质/毒性的预测方法有效
申请号: | 201610176440.1 | 申请日: | 2016-03-25 |
公开(公告)号: | CN105868540B | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 周真;杨旭;牛訦琛;陈鑫 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06K9/62 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙)23209 | 代理人: | 张伟 |
地址: | 150080 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及应用智能支持向量机对多环芳烃性质/毒性的预测方法,该方法根据已测的多环芳烃的分子结构,利用定量构效关系技术,建立多环芳烃环化指标预测模型和多环芳烃致癌性预测模型,应用支持向量机算法,实现了对小样本、非线性、高维问题的处理。并采用网格搜索法、遗传算法、粒子群算法优化模型,避免了参数的影响,进一步增加模型的准确性。本发明利用智能优化支持向量机可以快速的预测未知多环芳烃的性质和毒性,相比传统的毒理性测试实验提高了测试效率,相比于传统的统计预测法提高了泛化能力。相比正常算法避免了参数影响。实现了程序化,能为多环芳烃的环境评价提供可参考的决策性依据。 | ||
搜索关键词: | 应用 智能 支持 向量 芳烃 性质 毒性 预测 方法 | ||
【主权项】:
应用智能支持向量机对多环芳烃性质/毒性的预测方法,该方法包括下述步骤:1)通过相关的毒性试验或者已有的数据库和文献,获取67个多环芳烃的致癌性呈阴性 或阳性数据,15个多环芳烃空气‑正辛醇分配系数K OA;2)使用ChemDraw化学软件构建多环芳烃的分子结构,利用量子化学软件Hyperchem对构造出的分子结构进行结构优化,首先采用分子力学方法,在MM+力场下对所建几何构型进行初步优化,然后在此基础上通过半经验的AMI量子化学方法进行精优化,以获得能量最低的稳定构型;为在合理的时间内获得精确的分子模型,优化均在严格的Hartree‑Fock水平上进行,采用Polak‑Ribiere算法,直至梯度达到0.01;3)再将优化后的分子结构输入Dragon软件计算相应的描述符,获得量子化学参数:分 子最高占据轨道能E HOMO、分子最低空轨道能E LUMO、分子刚性h、分子极性α;以及经验参数分子量MW、分子体积V、分子长度L、分子宽度B和拓扑参数分子连接性指数Randic,共同作为结构描述符;4)将所获取的数据为了便于代入MATLAB软件中,进行格式转化,建立致癌性PAHs_svc_ scale.mat文件,包含67个多环芳烃致癌性数据,分为47个训练集,20个测试集;建立空气—正辛醇分配系数PAHS_svr_scale.mat文件,包含15个多环芳烃K OA数据,分为11个训练集,4 个测试集;5)在多环芳烃实测的实验致癌性值与其分子结构参数化计算值间运用支持向量机分 类算法进行数学建模,K OA与其分子描述符间运用支持向量机回归算法进行数学建模;6)对于所构建的数学模型,为进一步增加其预测的准确性,用网格搜索法、遗传算法和粒子群算法对支持向量机进行智能优化其参数,然后用最佳的寻优参数再进行模型的建 立;7)在回归模型的建立上,主要依据相关系数R和均方误差MES进行预测性能评价,对于 分类模型的建立,主要依据分类准确率Accuracy进行预测性评价;8)模型的验证是利用交叉检验最常见的“留一法”Q 2,分别对训练集和测试集进行内部 检验和外部检验,检测所建模的稳定性、预测能力和泛化能力;9)由检验指标最佳的优化方法,确定最佳对多环芳烃性质/毒性的预测模型,用于预测 没有经过实验测定的同类型有机毒物的相关性质/毒性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610176440.1/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用