[发明专利]行动信息学习装置、行动信息最优化系统以及计算机可读介质有效
申请号: | 201810069763.X | 申请日: | 2018-01-24 |
公开(公告)号: | CN108363356B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 佟正;西村卓真;稻口雄三 | 申请(专利权)人: | 发那科株式会社 |
主分类号: | G05B19/18 | 分类号: | G05B19/18 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行动信息 判定信息 强化学习 学习装置 计算机可读介质 机床 最优化系统 动作模式 价值函数 奖励 状态信息获取单元 加工 调整信息 更新单元 获取状态 计算单元 输出单元 输出 过热 更新 | ||
1.一种行动信息学习装置,具备:
状态信息获取单元,其获取状态信息,该状态信息包含与机床的加工有关的主轴的动作模式和参数的组合、即包含切削进给的速度和使主轴在指定时间内待机的暂停中的至少任一方的动作模式与包含加减速的时间常数和切削进给的速度改写中的至少任一方的参数的组合;
行动信息输出单元,其输出行动信息,该行动信息包含所述状态信息中包含的所述动作模式和所述参数的组合的调整信息;
奖励计算单元,其获取判定信息,并根据获取到的该判定信息输出强化学习中的奖励的值,该判定信息是关于所述机床的温度和与所述机床的所述加工有关的加工时间的信息;以及
价值函数更新单元,其通过根据所述奖励的值、所述状态信息以及所述行动信息进行所述强化学习,来更新价值函数,
其中,在所述机床的温度为规定的温度以上的情况下,所述奖励计算单元将所述奖励的值设为第一负的值,
在所述机床的温度小于规定的温度且所述机床的加工时间比前次的加工时间短的情况下,所述奖励计算单元将所述奖励的值设为正的值,
在所述机床的温度小于规定的温度且所述机床的加工时间比前次的加工时间长的情况下,所述奖励计算单元将所述奖励的值设为第二负的值。
2.根据权利要求1所述的行动信息学习装置,其特征在于,
所述奖励计算单元使所述第一负的值的大小大于所述第二负的值的大小。
3.根据权利要求1或2所述的行动信息学习装置,其特征在于,
所述奖励计算单元根据所述机床的加工时间相比于前次的加工时间缩短的程度,来使所述正的值增大,
所述奖励计算单元根据所述机床的加工时间相比于前次的加工时间延长的程度,来使所述第二负的值增大。
4.根据权利要求1或2所述的行动信息学习装置,其特征在于,
与其它的行动信息学习装置之间共享所述价值函数,
所述价值函数更新单元对共享的所述价值函数进行更新。
5.根据权利要求3所述的行动信息学习装置,其特征在于,
与其它的行动信息学习装置之间共享所述价值函数,
所述价值函数更新单元对共享的所述价值函数进行更新。
6.一种行动信息最优化系统,具备行动信息最优化装置和根据权利要求1至5中的任一项所述的行动信息学习装置,其中,
所述行动信息最优化装置根据由所述价值函数更新单元更新后的价值函数,生成用于使由所述机床进行的所述加工的价值为最大的行动信息、即最优化行动信息,输出所生成的该最优化行动信息以使所述机床进行所述加工。
7.一种计算机可读介质,记录有用于使计算机作为根据权利要求1~5中的任一项所述的行动信息学习装置发挥功能的行动信息学习程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于发那科株式会社,未经发那科株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810069763.X/1.html,转载请声明来源钻瓜专利网。