[发明专利]基于梯度提升决策树的出行生成预测方法、系统及装置有效
申请号: | 202010823717.1 | 申请日: | 2020-08-17 |
公开(公告)号: | CN111784084B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 杜立群;刘斌;郑猛;张宇;吴丹婷;吕宜生;李志帅 | 申请(专利权)人: | 北京市城市规划设计研究院;中国科学院自动化研究所 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/26;G06K9/62 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100045 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 梯度 提升 决策树 出行 生成 预测 方法 系统 装置 | ||
1.一种基于梯度提升决策树的出行生成预测方法,其特征在于,该出行生成预测方法包括:
步骤S10,提取待预测区域的各个交通小区的当前出行生成数据的自变量,并进行自变量的归一化处理,获得预处理数据;所述待预测区域的各个交通小区的历史出行生成数据包括自变量和因变量;所述自变量包括各个交通小区内有车和无车家庭数量和人口数量、有车和无车工作人员、学生、其他类型人员的数量、每类就业岗位的总人数;所述就业岗位包括工业、水利环境与公共设施、交通运输与邮政仓储、公共管理、教育、居民服务业、金融业、信息科技服务业、农林牧渔业;所述因变量包括各个交通小区内有车、无车家庭基于家庭和非基于家庭的出行产生量;
步骤S20,基于所述预处理数据,通过训练好的出行生成预测模型,获取待预测区域的各个交通小区当前的预测值;
步骤S30,对所述预测值进行反归一化,获得待预测区域的各个交通小区当前的预测出行生成数据;
其中,所述出行生成预测模型,为梯度提升决策树模型结构,以决策树作为基学习器,以模型中所有决策树输出之和作为模型的输出,以平方误差作为模型预测值与真实值之间的损失函数L,模型训练方法为:
步骤B10,提取待预测区域的各个交通小区的历史出行生成数据的自变量和因变量,并进行归一化处理,根据预设的比例将归一化后的数据划分为训练集和测试集;
步骤B20,基于训练集的各训练数据进行N轮出行生成预测模型训练,在第n轮训练中,在模型中新增第n棵决策树,基于损失函数L计算第n轮模型输出的误差负梯度值r(n+1)i;1≤n≤N为当前模型训练的轮次;
步骤B30,在模型中新增第n+1棵决策树,将第n轮的误差负梯度值r(n+1)i作为标签,进行第n+1棵决策树的训练:
Θn+1为模型第n+1轮训练时第n+1棵决策树的参数,r(n+1)i为第n轮模型输出的误差负梯度值,Lb(r(n+1)i,T(xi,Θn+1))代表模型第n+1轮训练的第n+1棵决策树输出的预测值T(xi,Θn+1)与对应的误差负梯度值r(n+1)i真之间的损失值,m为训练集中训练数据的数量;
Lb为基学习器的损失函数,D为模型第n+1轮训练时负梯度r(n+1)i和第n+1棵决策树输出的预测值T(xi,Θn+1)的维数;
第n+1棵决策树训练完成后,继续进行第n+2棵决策树训练,直至N棵决策树训练完成;
步骤B40,将测试集的各测试数据中的自变量输入训练好的出行生成预测模型,获取出行生成预测模型输出的预测值,计算所述预测值与自变量对应的因变量之间的R2值、均方根误差和平均绝对误差,若所述R2值接近1且所述均方根误差和平均绝对误差小于设定阈值,则所述出行生成预测模型性能满足要求;否则增加训练轮次或调整基学习器决策树的结构并使用原训练集再次进行模型训练,直至测试结果满足设定阈值,获得训练好的出行生成预测模型;
其中,决策树的训练过程是遍历每个特征的每个可能取值,分别计算平方误差,找到使平方误差最小的那个划分特征j和对应的划分节点s,获得最佳划分节点(j,s):
表示在第j维特征x(j)下被s划分的两个区域,c1,c2为两个区域内所有样本的均值,Nt为两个区域内所有样本数量:
对两个子区域内的数据各自用上述步骤继续划分子区域,直至满足决策树叶子节点的个数等于设定值时停止;
叶子节点个数为4,则将输入x划分成4个子区域每个区域样本均值为最终的CART学习器为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市城市规划设计研究院;中国科学院自动化研究所,未经北京市城市规划设计研究院;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010823717.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理