[发明专利]一种贝叶斯优化的RF与LightGBM疾病预测方法有效
申请号: | 202210708716.1 | 申请日: | 2022-06-21 |
公开(公告)号: | CN115050477B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 李培峦;李沛谕;刘珂妍;彭雪晴;张雨祺 | 申请(专利权)人: | 河南科技大学 |
主分类号: | G16H50/50 | 分类号: | G16H50/50;G06F18/2413;G06F18/2415;G06F18/241;G06F18/214;G06F18/21;G06N20/00 |
代理公司: | 洛阳公信知识产权事务所(普通合伙) 41120 | 代理人: | 宋晨炜 |
地址: | 471000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 贝叶斯 优化 rf lightgbm 疾病 预测 方法 | ||
1.一种贝叶斯优化的RF与LightGBM疾病预测方法,其特征在于,包括以下步骤:
S1、获取包含多个带有标签值的原始样本的原始数据集,构造微生物相对丰度矩阵,采用最大互信息系数进行特征选择,对数据集进行过滤并划分数据集,将数据集分为训练数据集和测试数据集;
S2、利用SMOTE方法对训练数据集进行过采样处理,获得平衡的数据集;
S3、用贝叶斯优化算法选择随机森林和LightGBM学习器的最优超参数;
贝叶斯优化算法优化RandomForest算法的超参数包括:RF的学习器数量、最大深度、节点分裂时参与判断的最大特征数、叶节点最小样本数和分裂所需的最小样本数;
贝叶斯优化算法优化LightGBM算法的超参数包括:
LightGBM学习器的叶子节点数量、最大深度、学习率、L1正则化、L2正则化、特征子抽样、数据采样比列和叶子节点最小数据量;
其中,贝叶斯优化包括以下步骤:
S31、选择树结构概率密度估计(TPE)作为概率代理模型进行贝叶斯优化,TPE算法的概率分布定义如式(5)所示:
其中,l(x)为观测值{x(i)}形成的密度,其对应的风险损失值y=f(x(i)),且yy*,g(x)为使用除{x(i)}外剩余的观测值形成的密度;
TPE算法选择y*作为当前观测风险值y的某个分位数γ,满足p(yy*)=γ,通过TPE算法的l(x)和g(x),将超参数集合划分为风险小和风险大的两部分;
S32、根据EI采集函数选取下一个超参数,通过最大期望提升进一步优化,最大期望提升EI的定义如式6所示:
为了能获得最大期望提升,通过评估每一个超参数x,在每次迭代中,算法将返回具有最大EI的超参数值:
S33、重复上述过程,不断利用代理模型的后验分布选择超参数,直到得到最优解;
S4、用所选的最优超参数分别代入随机森林与LightGBM算法训练模型;
S5、分别在训练集上进行10折交叉验证、在测试集进行模型预测性能评估。
2.如权利要求1所述的一种贝叶斯优化的RF与LightGBM疾病预测方法,其特征在于,所述步骤S1中的特征选择包括以下步骤:
S11、对于随机变量X和Y所构成的二维散点图构建网格尺度r×c划分;
S12、计算所划分的各个网格里的互信息公式:
将最大的互信息值按照下列公式进行归一化处理:
S13、用多种不同的划分方式中最大的归一化互信息值做为最大互信息系数:
MIC(X;Y)=maxr×cf(n)N(X;Y) (3)
其中,f(n)=n0.6,n为样本数量,X为一个物种,Y是样本的健康或者患病状态,N(X;Y)是随机变量的X和Y归一化后的最大互信息,MIC(X;Y)是随机变量的X和Y的最大互信息,r、c是对于随机变量X和Y所构成的二维散点图构建的网格尺度,p(x,y)是X和Y的联合概率分布函数,p(x)和p(y)分别是X和Y的边缘概率分布函数、max为最大值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南科技大学,未经河南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210708716.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种锁止结构及具有其的高压连接器
- 下一篇:晾衣杆升降结构以及电动晾衣杆