[发明专利]一种基于机器学习的城际网约车需求预测方法及系统有效

专利信息
申请号: 202110943104.6 申请日: 2021-08-17
公开(公告)号: CN113538067B 公开(公告)日: 2023-05-05
发明(设计)人: 喻小光;林卓瀚;陈霞 申请(专利权)人: 华侨大学
主分类号: G06Q30/0202 分类号: G06Q30/0202;G06Q10/02;G06Q50/30;G06F18/214;G06N5/01;G06N20/20
代理公司: 厦门市首创君合专利事务所有限公司 35204 代理人: 张松亭;李艾华
地址: 362000 福建省*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 机器 学习 城际 网约车 需求预测 方法 系统
【权利要求书】:

1.一种基于机器学习的城际网约车需求预测方法,其特征在于,包括:

S1,需求预测模型训练:

S11,订单数据获取,从网约车平台中获取城际订单数据,并以每天24小时分成n个时段t={1,...,n},根据订单数据汇总各时段的网约车需求客座数y={y1,...,yt};对于拼车订单,需求客座数为用户下单时所选择的乘车人数,对于包车订单,需求客座数为所选择车辆类型的可提供的客座数;

S12,天气特征数据获取,获取各时段的天气特征数据;

S13,特征数据合并及增加,将需求客座数y和天气特征数据通过线路和时段关联合并,同时添加时间特征数据和线路特征数据;

S14,特征数据预处理,对天气特征数据中缺失或异常的数据进行处理,包括用均值或附近时段值填充空值,并剔除异常值;

对处理后的天气、时间、线路特征中的离散型特征数据做one-hot编码,并通过min-max方法对天气、时间、线路特征数据标准化,使结果值映射到[0-1]之间;

S15,特征数据筛选,对天气、时间及线路特征采用Pearson相关系数法和最大信息系数法两种方法综合度量,提取Pearson系数的绝对值大于第一预设值或MIC值大于第二预设值的特征;

S16,模型训练,将S11~S15处理后的需求客座数据和特征数据作为极端梯度提升算法XGBoost的训练数据输入进行训练;

S17,最优模型获取,使用K-Fold交叉验证方法进行迭代训练寻找最优模型,将最优模型以文件的方式保存到特定路径;

S2,需求客座数值预测:构建未来时段的特征数据;对未来时段的特征数据以训练数据相同的数据处理方式进行处理;调用训练好的最优模型对需求客座数值进行预测。

2.根据权利要求1所述的基于机器学习的城际网约车需求预测方法,其特征在于,采用Pearson相关系数法获取Pearson相关系数,具体如下:

其中,ρ(x,y)表示Pearson相关系数;x表示特征,包括天气、时间及线路特征,xi表示在i时段特征x的值;y表示需求客座数,yi表示在i时段的需求值;n表示有n个时段;表示所有时段该特征的平均值;表示所有时段的需求平均值。

3.根据权利要求1所述的基于机器学习的城际网约车需求预测方法,其特征在于,采用最大信息系数法获取最大信息系数MIC,具体如下:

其中,MIC(x,y)表示最大信息系数MIC;x表示特征,包括天气、时间及线路特征;y表示需求客座数;n表示有n个时段;I(x,y)表示特征x与需求y之间的互信息值,a和b分别表示在y轴和x轴方向划分网格的大小。

4.根据权利要求1所述的基于机器学习的城际网约车需求预测方法,其特征在于,极端梯度提升算法XGBoost中使用MSE做损失函数,并使用RMSE做评估函数。

5.根据权利要求1所述的基于机器学习的城际网约车需求预测方法,其特征在于,所述K-Fold交叉验证方法,具体包括:

将各时段需求客座数及特征数据随机分成K组子集,子集包含了不同时段对应的需求及特征数据;将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集进行训练;分别在K个验证集中对预测结果进行评估,最后将K个模型误差加和平均得到该模型的交叉验证误差;在迭代训练过程中,XGBoost算法会根据设定的参数不断调整树模型,计算并保存每一次调整后模型的交叉验证误差。

6.一种基于机器学习的城际网约车需求预测系统,其特征在于,包括:

需求预测模型训练模块,包括:

订单数据获取单元,用于从网约车平台中获取城际订单数据,并以每天24小时分成n个时段t={1,...,n},根据订单数据汇总各时段的网约车需求客座数y={y1,...,yt};对于拼车订单,需求客座数为用户下单时所选择的乘车人数,对于包车订单,需求客座数为所选择车辆类型的可提供的客座数;

天气特征数据获取单元,用于获取各时段的天气特征数据;

特征数据合并及增加单元,用于将需求客座数y和天气特征数据通过线路和时段关联合并,同时添加时间特征数据和线路特征数据;

特征数据预处理单元,用于对天气特征数据中缺失或异常的数据进行处理,包括用均值或附近时段值填充空值,并剔除异常值;

对处理后的天气、时间、线路特征中的离散型特征数据做one-hot编码,并通过min-max方法对天气、时间、线路特征数据标准化,使结果值映射到[0-1]之间;

特征数据筛单元,用于对天气、时间及线路特征采用Pearson相关系数法和最大信息系数法两种方法综合度量,提取Pearson系数的绝对值大于第一预设值或MIC值大于第二预设值的特征;

模型训练单元,用于将处理后的需求客座数据和特征数据作为极端梯度提升算法XGBoost的训练数据输入进行训练;

最优模型获取单元,使用K-Fold交叉验证方法进行迭代训练寻找最优模型,将最优模型以文件的方式保存到特定路径;

需求客座数值预测模块,用于构建未来时段的特征数据;对未来时段的特征数据以训练数据相同的数据处理方式进行处理;调用训练好的最优模型对需求客座数值进行预测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110943104.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top