[发明专利]航班延误的模型建立方法、预测方法及装置在审
申请号: | 201811514333.0 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109492334A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 宋文俊;李方星;刘光胜 | 申请(专利权)人: | 青岛心中有数科技有限公司 |
主分类号: | G06F17/50 | 分类号: | G06F17/50;G06Q10/04 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王艳芬 |
地址: | 266000 山东省青岛市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 天气特征 航班延误 基础模型 历史数据 测试集 数据预处理 训练集 航班 模型建立 输入特征 拟合 预测 分层抽样 机器学习 预设 算法 表现 | ||
1.一种航班延误的模型建立方法,其特征在于,包括:
获取历史数据,对所述历史数据进行数据预处理;所述历史数据包括航班动态历史数据和精细化天气预报历史数据;
对数据预处理后的所述历史数据构造航班延误模型的输入特征;所述输入特征包括航班的非天气特征和航班的天气特征;
对所述数据预处理后的历史数据进行随机分层抽样获取训练集、第一测试集和第二测试集;
基于预设的算法,从所述航班的天气特征中确定目标天气特征;
根据所述训练集的所述航班的非天气特征和至少一个所述目标天气特征建立对应的基础模型;通过所述基础模型在所述第一测试集上的表现防止所述基础模型在所述训练集上过拟合;
通过所述第二测试集将多个基础模型组合为所述航班延误模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述历史数据进行数据预处理的步骤,包括:
对所述航班动态历史数据进行数据清洗,以清除所述航班动态历史数据中的取消航班记录、补班记录、重复记录和缺失值;
对于所述天气预报历史数据,过滤出机场附近的天气并通过插值计算所述机场的天气。
3.根据权利要求1所述的方法,其特征在于,所述对数据预处理后的所述历史数据构造航班延误模型的输入特征的步骤,包括:
对数据预处理后的所述历史数据构造航班延误模型的输入特征;
将所述输入特征中的类型变量编码为数值变量。
4.根据权利要求3所述的方法,其特征在于,所述将所述输入特征中的类型变量编码为数值变量的步骤,包括:
将所述输入特征中的所述航班的非天气特征通过构造哑变量转换为二元变量。
5.根据权利要求1所述的方法,其特征在于,所述基于预设的算法,从所述航班的天气特征中确定目标天气特征的步骤,包括:
对每个天气要素,抽取航班的所有非天气特征和所述天气要素的天气特征,使用机器学习算法建立对应的分类模型,根据所述分类模型的结果从所述天气要素的天气特征中确定目标天气特征;所述机器学习算法为随机森林或随机梯度提升算法。
6.根据权利要求1所述的方法,其特征在于,还包括:
将航班延误建模为二分类问题,其中发生延误的航班为正类样本,未发生延误的样本为负类样本;通过最小化以下代价函数训练所述基础模型:
其中,f(p)为所述代价函数;yi是第i个样本的真实延误标签,正类样本yi=1,负类样本yi=0;是模型预测的第i个样本是正类样本的概率,0≤pi≤1;是模型对第i个样本的输出;求和符号Σ表示对所有样本求和;k为预先设置的参数且k>0。
7.根据权利要求1所述的方法,其特征在于,所述通过所述第二测试集将多个基础模型组合为所述航班延误模型的步骤,包括:
将不同的所述基础模型组合为所述航班延误模型,航班延误模型的概率输出值是多个基础模型预测概率值输出的加权值。
8.一种航班延误的预测方法,其特征在于,应用于权利要求1-7任一项所述方法获得的航班延误模型,所述方法包括:
获取未来执飞的航班信息数据和精细化天气预报数据,对所述航班信息数据和所述精细化天气预报数据进行数据预处理;
将数据预处理后的所述航班信息数据和所述精细化天气预报数据输入所述航班延误模型,得到航班延误预测概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛心中有数科技有限公司,未经青岛心中有数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811514333.0/1.html,转载请声明来源钻瓜专利网。