[发明专利]基于Q-学习算法的空间桁架在轨装配策略在审
申请号: | 202110436545.7 | 申请日: | 2021-04-22 |
公开(公告)号: | CN113065796A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 戴野;相朝芳;齐云杉;张启昊;曲文印 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 算法 空间 桁架 装配 策略 | ||
本发明公开了基于Q‑学习算法的空间桁架在轨装配策略。该策略将Q‑学习算法与细胞机器人在轨装配策略问题相结合,通过采用完全贪婪策略完成装配过程动作行为选择,然后通过不断训练学习使在轨装配机器人学会如何选择并执行有效行为,再根据执行行为与获得奖励对Q进行更新,最后基于终止条件判定装配过程是否完成,从而验证该装配策略的有效性。本发明经过算法训练阶段与实际装配阶段最终用最少的步数将桁架周期模块结构装配完成,充分证实了这种策略可以更好地完成空间桁架在轨装配任务,同时这种策略对解决同类问题具有较强的通用性。
技术领域
本发明涉及人工智能技术领域,具体涉及基于Q-学习算法的空间桁架在轨装配策略。
背景技术
由于太空的特殊环境,会使得在轨装配任务对航天员的安全构成极大威胁,因此机器人在轨装配技术显得尤为重要,在轨装配技术也成为了空间机器人技术的一个重要研究方向。
目前,强化学习中的一个重要里程碑就是Q-学习算法,Q-学习算法是由一种类似于动态规划算法的一种最具有代表性的强化学习方法,Q-学习算法是目前最易理解和广为使用的强化学习方法,该算法在人工智能体及机器学习领域受到了普遍关注。由于Q-学习方法可以从环境中得到反馈从而进行训练学习,能适应动态变化的选择问题,有利于太空等未知环境的探索,是当前在轨装配技术的重要应用。
同时,现有装配策略大多为单一避障或路径选择,其中对无效抓取行为的应对策略较少。因此,如何减少装配过程中的重复繁杂行为,学会避免无效行为,从而用最少的步数完成装配任务是本领域亟需解决的技术问题之一。
发明内容
本发明目的在于克服上述现有技术的不足,提供了基于Q-学习算法的空间桁架在轨装配策略,能使得桁架周期模块结构以最少的步数完成在轨装配,充分证实了这种策略可以有效的应用于空间桁架在轨装配任务。
本发明采取了如下技术方案:基于Q-学习算法的空间桁架在轨装配策略,其特征在于,所述策略具体包括:定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息;基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择;基于评估最终装配目标状态信息判断在轨装配机器人装配任务是否完成。
优选的,所述算法初始参数包括:行为Action、状态State、策略函数a=π(s)、奖励函数R(s,a);所述在轨装配机器人的行为对桁架底面、侧面和顶面不同安装位置的装配信息分为三个不同安装状态:肩部夹持固定、肩部杆间移动、腕部抓取装配。
优选的,所述在轨装配机器人的装配策略采用完全贪婪策略,用ε-greedy策略完成动作行为的选择;所述算法进行Q学习时,ε值会随着智能体对环境喜好的变化而改变,所述ε值的函数变化可表达为:ε(k)=ε×(1-k/m)。
优选的,所述Q-学习算法在更新Q值时以最大Q值作为选择动作的标准,所述更新公式为:Qi+1(s,a)+α[R+γmaxa'Qi(s',a')-Qi(s,a)]。
优选的,所述最终装配目标状态信息包括:在轨装配机器人肩部末端夹持细胞的固定状态按桁杆编号用数字表达;其他球头节点及桁杆结构的装配状态用最后已装配或最先未装配的编号表达,其整体装配状态用0或1表达。
定义所述学习的行为次数为100,即当f=100时未完成本次装配过程,则结束本轮学习,进入下一轮的学习过程。
定义所述桁架周期模块结构装配过程中的无效行为,具体包括:定义底面结构未安装完成时,在轨装配机器人已经开始执行安装侧面或顶面结构的工作,则该状态被定义为无效行为;定义安装结构被重复安装时,也将被定义为无效行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110436545.7/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理