[发明专利]一种基于自动机器学习的化学材料吸附性能预测方法及装置在审
申请号: | 202110318374.8 | 申请日: | 2021-03-25 |
公开(公告)号: | CN112966447A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 王坤峰;杨培松;张欢;赖欣;阳庆元;俞度立 | 申请(专利权)人: | 北京化工大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F119/18 |
代理公司: | 北京翔石知识产权代理事务所(普通合伙) 11816 | 代理人: | 李勇 |
地址: | 100029 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自动 机器 学习 化学材料 吸附 性能 预测 方法 装置 | ||
1.一种基于自动机器学习的化学材料吸附性能预测方法,其特征在于,包括:
获取与化学材料吸附性能具有相关性的多种特征,结合不同类型的特征建立原始数据集并对原始数据集进行预处理;
对所述完成预处理的原始数据集进行特征处理并利用机器学习以根据经过特征处理完成的原始数据生成多个包含超参数的初始模型;
通过管道方法对多个所述初始模型进行迭代训练以生成最佳预测模型;
将测试数据集输入至所述最佳预测模型以进行化学材料吸附性能预测。
2.根据权利要求1所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,针对所述原始数据的预处理的方法包括:数据采样、数据清洗、特征压缩、特征转换以及特征提取中的一种或多种;
所述通过机器学习生成多个包含超参数的初始模型的方法包括:对所述原始数据进行特征处理以保证数据的合理性以及选取不同的机器进行学习以根据先验知识生成多个包含超参数的初始模型。
3.根据权利要求1所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述通过管道方法对多个所述初始模型进行迭代训练获得最佳预测模型的方法包括:根据特征重要性对所述特征处理完成的数据集进行数据筛选和特征处理并通过遗传算法和迭代法对所述初始模型进行调参。
4.根据权利要求3所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述数据筛选包括:使用SelectKBest方法选择最优的前n%的特征信息并移除不符合最小方差阈值的特征信息,该选择方法通过卡方验证和互信息结合计算得出最优的前n%特征,公式如下所示:
其中,p(x,y)是x和y的联合分布函数,p(x)和p(y)分别为是x和y的边际概率密度函数,Fi为第i个特征的观测值,Ei为第i个特征的期望值。
5.根据权利要求4所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述特征重要性包括特征与目标变量之间的相关性以及各个特征之间的相关性,通过对特征与目标变量的相关性以及各个特征之间的相关性进行分析、保留与目标变量相关性强的特征并删除特征间相关性强的特征以生成该所述特征重要性,若两个特征变量相关系数大于0.9,则判定两个特征变量相关性强,计算公式为:
其中r(x,y)代表两个变量x和y之间的相关系数,和分别代表x和y的均值。
6.根据权利要求3所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述通过遗传算法对所述初始模型的调参方法包括:通过分别对多个初始模型的超参数进行优化以生成多个最佳性能的初始模型并通过选择最佳参数以生成最佳预测模型。
7.根据权利要求6所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述生成最佳预测模型的方法包括:通过叠加组合将多个所述最佳性能的初始模型集成为最佳预测模型集,集成公式如下所示,
其中,A={A1,...An}为机器学习的集合,各元素分别代表数据处理以及机器学习算法,Aj∈A(j=1,...,n)为集合对应的超参数空间Λj;
当进行模型选择时,对所述数据集进行k个交叉验证,将所述数据集分为k个训练集和k个验证集为经训练集训练后带有超参数λ∈Λj的算法Aj在验证集的错误率,用以生成最佳的预测模型组合以及超参数组合。
8.根据权利要求7所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,通过拟合优度R2和RMSE对所述最佳预测模型进行评价,R2和RMSE的计算公式如下:
其中n代表数据集的总数,和yi分别是第i个数据的最佳模型预测值和真实值,是所有预测值的平均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京化工大学,未经北京化工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110318374.8/1.html,转载请声明来源钻瓜专利网。