[发明专利]一种基于网格搜索的支持向量机行程时间预测方法有效
申请号: | 201710507146.9 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107316501B | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 马晓磊;杨洁 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G08G3/00 | 分类号: | G08G3/00;G06Q10/04;G06Q50/30;G06K9/62 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 李冉 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于网格搜索的支持向量机行程时间预测方法,属于智能交通领域,包括:1、基于船舶自动识别系统数据,依照缺失数据的排查、上下行船舶的划分以及冗余数据的剔除三大步骤进行数据的预处理工作;2、构建基于历史时段的内河船舶行程时间预测模型,并根据模型得到训练数据集;3、基于支持向量机网格搜索法寻找预测模型的最优参数;4、基于最优参数,实现对内河船舶行程时间的预测;5、预测结果评价。本发明可用于对船舶自动识别系统数据运用数据挖掘理论方法进行挖掘及分析,实现对内河船舶行程时间的预测,其应用将有助于提高航务管理部门的管理水平,促进内河航运的迅猛发展。 | ||
搜索关键词: | 一种 基于 网格 搜索 支持 向量 行程 时间 预测 方法 | ||
【主权项】:
一种基于网格搜索的支持向量机行程时间预测方法,包括以下几个步骤:步骤一、船舶自动识别系统(Automatic Identification System,AIS)数据预处理首先需要对AIS数据中的缺失数据进行排查。采集到的AIS数据主要包括MMSI号、归档时间、经度、纬度、对地航速、对地航向、船舶类型等信息。在原始数据中,某一时刻的某一船舶可能存在有上述信息不完整的情况,对于此类不完整信息,应该予以排查及去除。其次,根据船舶对地航向角不同进行上下水的划分,将原始AIS数据分为上行船舶及下行船舶两大部分。根据内河船舶航行特点可知,在内河上行驶的船舶,其航行速度会受到上下水不同的影响,下水船舶航行速度明显高于上水船舶,会对行程时间产生影响,进而在建立的预测模型中会产生不同的参数。根据船舶航行对地航向角的不同,将原始数据导入地图中,得到船舶上下行区分图,从而对上行船舶和下行船舶进行划分。最后再剔除冗余航段。在原始数据中,会出现例如船舶未行驶、经纬度数据错误、船舶位于长江航道以外等错误数据,除了剔除上述错误数据之外。有部分船舶位于支流航段,还有部分船舶为轮渡船,并未沿着内河的上下行方向航行,因此,上述类似船舶也应在原始数据中剔除。步骤二、构建基于历史时段的内河船舶行程时间预测模型本发明利用支持向量机(Support Vector Machine,SVM)的自学习能力,自我学习各项因素之间的复杂函数关系。内河船舶当前时段的行程时间与该时段的前几个时段的行程时间有着一定的函数关系,即:TK=f(Tk‑1,Tk‑2,...,Tk‑n) (1)其中,TK代表在当前时段符合预测航段的各个船舶实际行程时间的平均值;Tk‑n代表预测时段k的前几个时段符合预测航段的各个内河船舶实际行程时间,n=1,2,…,n。在预测航段内选取定点A和定点B,A、B之间的航段L即为预测航段。其中,为保证每一组训练数据的起点及终点位置基本相同,需要做如下限定,即假设所选取的起点A的坐标为(x,y),那么实际起点A’的坐标需要满足一定的精度要求,即:|x‑x'|≤ε,|y‑y'|≤ε。同理,终点B也需要满足以上精度要求。在基于历史时段的预测模型中,因为越靠近当前时段的时段与预测时段的相关程度越大,因此训练集中的每组数据要包含适当数量时段的船舶行程时间,又因为船舶航行速度是影响内河船舶行程时间的又一个重要因素,因此要采用与内河船舶行程时间密切相关的历史时间序列及该时段各船舶航行的平均速度作为预测的特征值。首先将数据分为上行情景一和下行情景二两种情况,然后第一维输入向量为T1第二纬输入向量为T2,第三维输入向量为T3、第n维输入向量为Tn,平均速度向量为V,输出向量为Tn+1。之后,将构造的训练数据导入SVM程序中,SVM通过历史数据进行自我学习,找到输入值与输出值之间的复杂函数关系,即可实现对内河船舶行程时间的预测。步骤三、基于SVM网格搜索法寻找预测模型的最优参数对于径向基核函数的参数C、σ、ε的选择,本发明采用网格搜索中的k折交叉验证法。k折交叉验证是将训练样本平均分成k份,每次拿出k‑1份作为训练数据,剩下的一份作为测试数据,这样重复做k次,获得k次的平均交叉验证准确率作为结果,进行k折交叉验证之后会返回一个效率值,效率最大值所对应的cost和gamma参数就是径向基核函数的最优参数。在下一步使用SVM函数的预测工作中,将上述参数的值定位寻优获得的最优值,即可达到相对较好的预测小效果。步骤四、基于最优参数,实现对内河船舶行程时间的预测首先编写程序,在R中导入训练数据集,并设定好输入数据集合x,输出数据集合y。在调用svm函数时,需要设定SVM支持向量机核函数的类型,以及gamma和cost的最优值;其次需要对训练数据进行测试,采用上述预测模型,对输入集合x预测,得到预测值,并与真实值进行对比;最后,通过attr()函数确定对象属性,得出各因子权重。步骤五、预测结果评价首先对测结果进行可视化,以实际的观测值为横坐标,以所建立的SVM模型产生的预测值作为纵坐标,绘制相关散点图来进行对比。为了便于比较,也可以建立一组观测值与预测值完全相同的情况,与上述散点图进行对比,可以更加直观的看出预测值的分布。最后,计算预测模型的评价指标,对内河船舶行程时间预测模型的预测结果进行量化与评价。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710507146.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种非接触式塑料瓶质量检测设备
- 下一篇:一种塑料瓶质量便捷检测设备