[发明专利]小样本环境下基于XGBoost的化学反应产率智能预测与分析方法有效
申请号: | 202110535993.2 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113517033B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 杨晓慧;彭李超;董晶;张普玉;张泽霖 | 申请(专利权)人: | 河南大学 |
主分类号: | G16C20/10 | 分类号: | G16C20/10;G16C20/70;G06N20/20 |
代理公司: | 郑州立格知识产权代理有限公司 41126 | 代理人: | 崔卫琴 |
地址: | 475001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 环境 基于 xgboost 化学反应 智能 预测 分析 方法 | ||
1.小样本环境下基于XGBoost的化学反应产率智能预测与分析方法,其特征在于:包括对三维描述符的数据获取、智能预测和结果分析;
其中,三维描述符的数据获取,是通过将绘制出的相关化学结构的二维结构图转化为三维结构图,然后再利用软件计算其三维结构的描述符;
三维描述符的智能预测,是通过梯度提升树模型XGBoost对获取的三维描述符进行训练和预测;该算法中嵌入了网格搜索法,对多个参数的可能取值进行排列组合,通过模型预测结果选取最佳参数;
三维描述符的结果分析,是对智能预测模块的输出进行分析;其包括产率预测结果分析、产率对应的反应条件的分析、三维描述符特征重要性分析。
2.根据权利要求1所述的化学反应产率智能预测与分析方法,其特征在于:三维描述符的数据获取具体实现步骤包括:
(1.1)将Buchwald-Hartwig胺化反应中的所有变量按照一定的顺序进行排列组合,并绘制出每个组合的二维结构图;
(1.2)在以某个反应物或反应条件为变量,其余的为定量的小样本的条件下,将绘制出的二维结构图每个组合转化为三维结构图组合,并保存文件;
(1.3)将步骤(1.2)中保存的文件利用相关软件计算并输出其三维结构描述符,以此保留有机化合物的结构信息和平面信息;
(1.4)汇总计算得到的所有反应组合的三维结构描述符,将其分为训练集、测试集,并将其与相应的反应产率对应。
3.根据权利要求2所述的化学反应产率智能预测与分析方法,其特征在于:三维描述符的智能预测,具体包括:
(2.1)将步骤(1.4)得到的训练集和测试集数据导入到XGBoost算法中,利用网格搜索法对XGBoost算法中的多个参数的可能取值进行排列组合,通过计算XGBoost算法中每次迭代的损失函数值,直至损失函数值收敛到最小或者收敛到一定的次数后,输出预测结果以及对应的参数值,最后选取最好的预测结果所对应的参数并保存模型;
(2.2)进行样本外预测,以此证明模型的有效性;样本外预测即对模型预测样本以外的数据进行预测,如果样本外预测是有效的,则就可证明所选的模型可以预测小样本环境下化学反应产率,并确定反应物与反应条件的组合,提供最高的产率对应的反应组合。
4.根据权利要求3所述的小样本环境下基于XGBoost的化学反应产率智能预测与分析方法,其特征在于:三维描述符的结果分析具体包括:
在进行样本内、外预测后,通过XGBoost算法计算获得三维描述符的重要性排序;通过描述符的重要性排序找到影响反应产率的主要描述符,挖掘内部规律并进行分析。
5.根据权利要求2所述的化学反应产率智能预测与分析方法,其特征在于:步骤(1.1)中绘制二维结构图时,排列组合绘制Buchwald-Hartwig胺化反应中的反应变量,所有反应组合的顺序为卤化物、配体、基底和添加剂;并且利用Spartan软件以卤化物为变量,添加剂、基底和配体为定量都选择第一种,进行组合,每一组反应组合按照一定的顺序画出二维结构图。
6.根据权利要求3所述的化学反应产率智能预测与分析方法,其特征在于:三维描述符的智能预测中,步骤(2.1)的具体计算过程包括:
将得到训练集与测试集数据导入到XGBoost算法中,其目标函数为:
其中T表示叶子结点的个数,w表示叶子结点的分数;γ可以控制叶子结点的个数;λ可以控制叶子结点的分数不会过大,防止过拟合;表示K颗树的复杂度;L(φ)是线性空间上的表达;i是第i个样本,k是第k颗树;是第i个样本xi的预测值:yi是真实值;
从目标函数中可以看到XGBoost的目标函数有两部分组成,第一部分用于测量当前生成的模型对训练数据的吻合度;另一部分中,XGBoost显式地将模型的复杂度作为了目标函数的一部分,也就是正则化项;
由于XGBoost算法中的目标函数可以自由选取,只要满足二阶可导即可,XGBoost算法的目标函数选取平方损失函数:
最后模型将根据损失函数达到最小值时返回预测值,通过评价指标判断模型的预测效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110535993.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种绕线模组及其工作方法
- 下一篇:基于区块链技术的施工作业数据溯源管理方法