[发明专利]机械的自动驾驶控制方法以及系统有效
申请号: | 202010248015.5 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111830825B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 松本杜青;工藤文也;鲸井俊宏 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吴秋明 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机械 自动 驾驶 控制 方法 以及 系统 | ||
1.一种自动驾驶控制系统,对机械的自动驾驶进行控制,所述自动驾驶控制系统的特征在于,具备:
问题设定部,其设定第1模型,所述第1模型基于数学地描述的函数来表示输入到所述机械的控制信号串与从遵循该控制信号串而控制的所述机械输出的数据的关系;
学习执行部,其执行包含学习所述机械的自动驾驶控制的学习处理;和
驾驶控制部,其通过将遵循所述学习处理的结果的控制信号串输入到所述机械来对所述机械的自动驾驶进行控制,
所述学习执行部在所述学习处理中,
直到满足第1条件为止,使用所述第1模型来执行学习,
在满足所述第1条件以后,直到意味着过学习的第2条件得以满足为止,或直到该第2条件未得到满足而结束学习为止,使用使所述第1模型变化1次以上后的模型即第2模型来执行学习,
所述第2模型是作为对所述第1模型施加与所述第1模型不同的数学地描述的第3模型当中的给定比例的第3模型的结果的模型。
2.根据权利要求1所述的自动驾驶控制系统,其特征在于,
所述自动驾驶控制系统具备:
可靠度设定部,其算出第1可靠度,所述第1可靠度基于从被输入第1控制信号串的所述第1模型输出的第1仿真结果数据、与从被输入所述第1控制信号串的所述机械输出的第1真实世界数据的第1误差,
所述给定比例是比算出的所述第1可靠度小的比例。
3.根据权利要求2所述的自动驾驶控制系统,其特征在于,
所述第1条件是基于所述第1可靠度和学习次数的条件。
4.根据权利要求2所述的自动驾驶控制系统,其特征在于,
所述自动驾驶控制系统具备:
施加模型生成部,其生成所述第3模型,所述第3模型是拟合所述第1模型以使得所述第1误差收在容许误差范围内的模型。
5.根据权利要求1所述的自动驾驶控制系统,其特征在于,
所述学习执行部在满足所述第2条件的情况下结束所述学习处理。
6.根据权利要求2所述的自动驾驶控制系统,其特征在于,
所述可靠度设定部显示所述第1误差以及所述第1可靠度当中的至少一者,
在针对该显示而接受到学习处理的许可的情况下,所述学习执行部执行所述学习处理。
7.根据权利要求1所述的自动驾驶控制系统,其特征在于,
利用所述第1模型的学习和利用所述第2模型的学习中的任何学习都是强化学习,
所述第2条件是下述当中的至少一者,
·遵循利用所述第2模型的强化学习中得到的报酬的值比遵循利用所述第1模型的强化学习中得到的报酬的值大,
·利用所述第2模型的强化学习中得到的报酬的变动幅度超过利用所述第1模型的强化学习中得到的报酬的变动幅度。
8.根据权利要求2所述的自动驾驶控制系统,其特征在于,
所述自动驾驶控制系统具备:
可靠度/第1模型更新部,其执行可靠度/第1模型更新处理,所述可靠度/第1模型更新处理包含:在第2可靠度超过所述第1可靠度的情况下,将所述第2可靠度更新为新的第1可靠度;以及将作为对所述第1模型施加基于该新的第1可靠度的比例的第3模型的结果的模型更新为新的第1模型,其中,所述第2可靠度基于第2误差,所述第2误差是通过对所述第2条件未得到满足而结束所述学习处理的情况下的所述第2模型输入第2控制信号串而从所述第2模型输出的第2仿真结果数据、与从被输入所述第2控制信号串的所述机械输出的第2真实世界数据的误差,
在每个所述可靠度/第1模型更新处理的所述学习处理中,使用所述新的第1模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010248015.5/1.html,转载请声明来源钻瓜专利网。