[发明专利]基于XGBoost的水库大坝风险等级评估方法及系统在审
申请号: | 202110924472.6 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113807570A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 丁炜;金有杰;高佳琦;刘娜;孙建庭;林艳燕;陈季;牛睿平 | 申请(专利权)人: | 水利部南京水利水文自动化研究所;江苏南水科技有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06;G06Q50/06;G06N20/20;G06K9/62;G06F40/151 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶涓涓 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 xgboost 水库 大坝 风险 等级 评估 方法 系统 | ||
1.一种基于XGBoost的水库大坝风险等级评估方法,其特征在于,包括如下步骤:
步骤一:获取水库大坝风险影响因子相关的特征数据及风险等级表,对全部特征数据进行预处理,针对数据内容及格式进行特征清洗、数据转换、数据填充,规范化数据后得到数据集;
步骤二:基于步骤一完成的数据集,检查数据集样本不均衡情况,当样本存在不均衡情况时对样本采用技术手段进行处理以使得样本更为均衡;
步骤三:基于步骤二处理后的数据集,将其划分为训练集和测试集;训练集被用于输入模型,通过模型不断学习训练数据中每个特征的深层信息,使其拥有评估预测的能力;测试集用于评估模型评估预测能力的好坏;
步骤四:建立基于XGBoost水库大坝风险等级评估预测模型,通用参数、任务参数及基学习器参数设置为默认参数,根据数据集特征调整计算特征重要性的方式,并设置每个水库大坝风险等级结果输出的方式;
采用XGBoost算法对水库大坝风险等级进行评估和预测,其目标函数具体公式为:
上式中,为评估模型复杂程度的正则项函数,为评估模型拟合程度的损失函数,yt表示在样本上的真实得分值,表示在样本上的预测得分值;
特征重要性计算采用“weight”,“gain”,“cover”方式,“weight”反映特征在树中出现次数;“gain”反映特征分裂时的平均增益;“cover”是特征在分裂节点时覆盖的所有样本的个数;
步骤五:基于训练集数据及建立的XGBoost水库大坝风险评估预测等级模型,采用Pandas将数据集打开,采用iloc将25个特征数据选中并作为X变量输入模型,得到初步的XGBoost模型;其中X变量为训练集数据中的x_train,将风险等级作为Y变量输入模型,其中Y为训练集数据中的y_train;
步骤六:根据步骤五建立的XGBoost模型,利用Cross validation将数据集进行分组并设置参数、确定优化参数范围及参数搜索步长,将一部分作为训练集训练分类器,再利用验证集验证模型,并记录最后的分类准确率为分类器的性能;
步骤七:对于Cross-validation中的每次训练,采用GridSearch遍历所有参数组合,确定其最优参数,并将k次训练结果中精度最高的参数组合进行输出,作为模型的最终参数;
步骤八:将步骤七得到的最优参数组合于模型,并在测试集上全方面评估模型性能,并从中选择精度最高的最优方案。
2.根据权利要求1所述的基于XGBoost的水库大坝风险等级评估方法,其特征在于,所述步骤一中预处理至少包括以下方式中的至少一项:
(1)处理数据内容与标题不符、数据格式异常、数据内容缺失问题;
(2)对文本特征进行特征变换,将大坝类型、防渗体类型、筑坝材料及筑坝目的等文本型数据利用LabelEncoder转换为数值型数据。
3.根据权利要求2所述的基于XGBoost的水库大坝风险等级评估方法,其特征在于,还包括如下处理:
1、首先对特征值缺失情况进行统计,将缺失比例大于60%的无效特征删除;
2、针对具有数值类型和文本类型的水库大坝数据集,去除水库大坝数据集中重复特征信息;
3、判断数据集是否为包含数值和文本数据的混合数据集,若存在文本数据,则根据特征数量选择将文本数据的特征值与数值进行映射或者将特征值映射到高维空间中,然后再对特征进行降维;
4、对特征集合中缺失的特征值信息进行填充,由于水库大坝特征多为离散值,因此缺失值填充可以使用研究区域内水库大坝的特征均值或众数;此外还可将缺失值统一设置为某一具体数值,用以提升模型的鲁棒性。
4.根据权利要求1所述的基于XGBoost的水库大坝风险等级评估方法,其特征在于,所述步骤二中技术手段为:据步骤一获得的水库大坝风险等级数据集的样本情况对其进行融合采样处理,基于数据层面,通过基于下采样和类别均衡采样的融合采样方式确保数据集满足模型要求;基于算法层面根据水库大坝风险等级划分情况设置调整多种类别的对应权重、在算法建立过程中增加惩罚项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于水利部南京水利水文自动化研究所;江苏南水科技有限公司,未经水利部南京水利水文自动化研究所;江苏南水科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110924472.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理