[发明专利]基于Q-学习算法的空间桁架在轨装配策略在审
申请号: | 202110436545.7 | 申请日: | 2021-04-22 |
公开(公告)号: | CN113065796A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 戴野;相朝芳;齐云杉;张启昊;曲文印 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 算法 空间 桁架 装配 策略 | ||
1.基于Q-学习算法的空间桁架在轨装配策略,其特征在于,所述策略具体包括:定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息;基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择;基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成。
2.根据权利要求1所述的基于Q-学习算法的空间桁架在轨装配策略,其特征在于,定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息具体包括:
所述算法初始参数包括:行为Action、状态State、策略函数a=π(s)、奖励函数R(s,a);所述在轨装配机器人的行为对在轨桁架底面、侧面和顶面不同安装位置的装配信息分为三个不同安装状态:肩部夹持固定、肩部杆间移动、腕部抓取装配;
所述基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择具体包括:
所述在轨装配机器人的装配策略采用完全贪婪策略,用ε-greedy策略完成动作行为的选择;所述策略算法进行Q学习时,ε值会随着智能体对环境喜好的变化而改变,所述ε值的函数变化可表达为:ε(k)=ε×(1-k/m);
所述Q-学习算法在更新Q值时以最大Q值作为选择动作的标准,所述更新公式为:Qi+1(s,a)+α[R+γmaxa'Qi(s',a')-Qi(s,a)];
所述基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成具体包括:
所述在轨装配机器人肩部末端夹持细胞的固定状态按桁杆编号用数字表达;所述其他球头节点及桁杆结构的装配状态用最后已装配或最先未装配的编号表达,其整体装配状态用0或1表达;
定义所述学习的行为次数为100,即当f=100时未完成本次装配过程,则结束本轮学习,进入下一轮的学习过程。
3.根据权利要求2所述的基于Q-学习算法的空间桁架在轨装配策略,其特征在于,定义桁架周期模块结构装配过程中的无效行为:
所述底面结构未安装完成时,在轨装配机器人已经开始执行安装侧面或顶面结构的工作,则该状态被定义为无效行为;所述安装结构被重复安装时,也将被定义为无效行为;
在所述有效性为下,根据装配过程的顺序设定给定不同的奖励,所述奖励具体包括:
所述桁架周期模块结构只剩一根顶面桁杆结构未装配时,下一行为动作即为对该桁杆结构的装配,此时其奖励为100;所述在轨装配机器人进行一个有效动作时,给定负奖励3;所述装配机器人行为次数达到100还未完成桁架装配时,对第100个动作行为所处的状态给定10的负奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110436545.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理