[发明专利]一种基于深度强化学习的机车智能操纵方法与系统有效

申请号：	201710045758.0	申请日：	2017-01-20
公开（公告）号：	CN106842925B	公开（公告）日：	2019-10-11
发明（设计）人：	赵曦滨;夏雅楠;黄晋;卢莎;任育琦;顾明;孙家广	申请（专利权）人：	清华大学;中车信息技术有限公司;中车大连机车研究所有限公司
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	北京律谱知识产权代理事务所(普通合伙) 11457	代理人：	罗建书
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习机车智能操纵方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的机车智能操纵系统，其特征在于，所述机车智能操纵系统包括数据源模块、机车运行环境学习模块、评价机制学习模块和控制策略学习模块；

所述数据源模块用于对获得的数据源进行数据预处理，所述数据源包括机车运行日志、列车运行交路数据、列车运行能耗信息和列车运行时刻表信息，所述数据预处理是将所述机车运行日志和所述列车运行交路数据输送至所述机车运行环境学习模块，将所述列车运行能耗信息和所述列车运行时刻表信息输送至所述评价机制学习模块；

所述机车运行环境学习模块用于构建机车运行环境模型，所述机车运行环境学习模块包含列车运行参数的基础参数部分和扰动参数部分的学习，学习结果构成机车具体的运行环境，所述机车运行环境学习模块将获得的所述机车具体的运行环境输送至所述控制策略学习模块；

所述评价机制学习模块将从所述数据源模块中获得的信息结合评价机制得到机车运行过程中所需要的奖赏函数，所述奖赏函数作为所述评价机制的反馈数据被所述评价机制学习模块输送至所述控制策略学习模块；

所述控制策略学习模块从所述机车运行环境学习模块和所述评价机制学习模块分别获得所述机车具体的运行环境和所述奖赏函数，并进行基于深度强化学习方法的列车优化操纵策略学习训练，与所述机车运行环境模型进行不断的交互学习，通过所述评价机制学习模块得到反馈的所述奖赏函数从而用于指导列车之后的操纵序列，并通过策略更新机制，得到所述机车最终的实际操纵策略。

2.根据权利要求1所述的基于深度强化学习的机车智能操纵系统，其特征在于，所述评价机制包括列车操作评分机制学习和不规范操作惩罚评分机制设计。

3.根据权利要求1所述的基于深度强化学习的机车智能操纵系统，其特征在于，所述控制策略学习模块进行深度强化学习是基于DQN模型进行的，所述DQN模型与所述机车运行环境模型进行不断的交互学习。

4.一种基于深度强化学习的机车智能操纵方法，其特征在于，所述机车智能操纵方法通过如下步骤实现：

S1：对数据源进行预处理；

从数据源中提取出机车运行环境模型学习的特征数据，即机车运行日志和列车运行交路数据，构成机车运行环境监督学习算法学习的样本数据；从数据源中提取出列车运行能耗信息和列车运行时刻表信息的数据作为评价机制学习的参数；

S2：机车运行环境的学习与构建；

通过机车的运行环境信息采用基于历史运行数据的监督学习和动态时序图算法进行机车运行环境模型的训练和构建，机车运行环境模型通过学习获得机车具体的运行环境，并将获得的机车具体的运行环境用于控制策略学习；

S3：评价机制学习；

将从数据源中获得的信息结合评价机制针对特定行驶路线和机车状态信息进行短区间内的目标观察获得机车运行的奖赏函数，奖赏函数作为机车操纵的评价值被用于控制策略学习；

S4：控制策略学习；

采用深度强化学习方法对机车具体的运行环境进行控制策略学习，并通过获得的奖赏函数对运行状态进行策略的更新与优化，进而获得机车的优化操纵控制策略。

5.根据权利要求4所述的基于深度强化学习的机车智能操纵方法，其特征在于，所述机车智能操纵方法还包括策略更新机制，优化后的所述控制策略能够应用所述策略更新机制进行实时的策略更新，指导自身在当前控制策略的基础上，实时自适应学习得出更优化的控制策略，实现机车控制策略的逐步优化。

6.根据权利要求4所述的基于深度强化学习的机车智能操纵方法，其特征在于，在步骤S2中，机车的运行环境信息包括机车运行日志、列车运行交路数据构成的列车本身的状态信息和外界的环境参数信息，其中大部分参数在一定的范围内波动，是可通过历史数据观察和预测到的波动信息，而有小部分参数在实际场景中是不确定性的，并可能发生不可预测的波动。

7.根据权利要求6所述的基于深度强化学习的机车智能操纵方法，其特征在于，所述机车运行环境模型通过监督学习算法基于机理模型完成列车运行基础模型参数学习来实现对普场景的覆盖，基于动态图模型完成列车运行环境扰动参数学习。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学;中车信息技术有限公司;中车大连机车研究所有限公司，未经清华大学;中车信息技术有限公司;中车大连机车研究所有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710045758.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的机车智能操纵方法与系统有效

专利文献下载