[发明专利]复杂场景自主移动机器人自监督学习及导航方法在审
申请号: | 202110460536.1 | 申请日: | 2021-04-27 |
公开(公告)号: | CN113156959A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 邹俊成;乔红;尹玲;庞伟;刘佳玲 | 申请(专利权)人: | 东莞理工学院 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京惟盛达知识产权代理事务所(普通合伙) 11855 | 代理人: | 董鸿柏 |
地址: | 523000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 复杂 场景 自主 移动 机器人 监督 学习 导航 方法 | ||
1.一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,具有如下步骤:
步骤1,预先设置机器人的训练次数;
步骤2,采集机器人所在环境的实际状态图像;
步骤3,将步骤2中所采集的实际状态图像与机器人执行动作前一时刻所预测的预测状态图像相比较,并计算所述实际状态图像与所述预测状态图像之间的损失函数,然后根据所述的损失函数计算奖惩信号rs,然后根据奖惩信号rs更新网络权重;
步骤4,预测机器人的动作,并预测机器人执行该动作后相应的预测状态图像;
步骤5,机器人执行动作,记录已完成训练的次数;
步骤6,判断已完成训练的次数是否达到预先设置的训练次数,如果判断结果为否,则返回步骤2继续训练;如果判断结果为是,则加权所有的奖惩信号rs,并更新网络权重;然后结束训练。
2.根据权利要求1所述的一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,所述步骤3具体包括如下步骤:
在t1时刻采集实际状态图像i1’,将所述实际状态图像i1’输入视频预测网络NN1;利用所述视频预测网络NN1计算出下一时刻t2的预测状态图像i2和动作,所述t2时刻指机器人执行动作后的时刻;
在t2时刻采集实际状态图像i2’,通过综合损失La和图像深度学习损失Lgdl共同计算预测状态图像i2和实际状态图像i2’的损失loss,然后通过所述损失loss计算奖惩信号rsrs,然后根据所述奖惩信号rsrs更新所述视频预测网络NN1的网络权重。
3.根据权利要求2所述的一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,所述机器人通过控制信号action来执行动作,所述控制信号action由视频预测网络NN1计算得出。
4.根据权利要求3所述的一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,所述控制信号action包括包括角度、速度、加速度以及力矩。
5.根据权利要求2所述的一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,所述综合损失La的计算公式如下:
La=λ1*L1+λ2*L2+λgdl*Lgdl (1)
其中:λ1为L1的系数,λ2为L2的系数,λgdl为Lgdl的系数,pi,j指是预测状态图像i2的一个像素值,p′i,j指的是实际状态图像i2’的像素值,坐标i,j分别指的是图像中x,y的坐标位置。
6.根据权利要求5所述的一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,所述图像深度学习损失Lgdl的计算公式如下:
7.根据权利要求1所述的一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,训练每一次执行,均更新视频预测网络NN1的权重;训练完成后求该训练中所有奖惩信号rs的和RS。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞理工学院,未经东莞理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110460536.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高混合气含氧量的预燃室装置及发动机
- 下一篇:集成式感应水龙头