[发明专利]一种基于动态模型强化学习的倒水服务机器人控制方法有效

申请号：	202110217090.X	申请日：	2021-02-26
公开（公告）号：	CN113031437B	公开（公告）日：	2022-10-25
发明（设计）人：	尤鸣宇;苏志成;周洪钧	申请（专利权）人：	同济大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	应小波
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于动态模型强化学习倒水服务机器人控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于动态模型强化学习的倒水服务机器人控制方法，包括：步骤1：基于深度相机获取三维空间的视觉信息；步骤2：利用深度神经网络完成对机器人、源容器和目标容器的识别，同时获得源容器、目标容器之间的相对位置信息、液体类型以及液位高度信息，完成状态信息的获取；步骤3：根据步骤2获取的信息建立动态模型模拟当前环境，并利用动态模型对策略网络进行训练；步骤4：待策略网络收敛后，将机器人的位姿信息和状态信息输入至策略网络，输出机器人动作策略；步骤5：使用步骤4预测出的机器人动作策略驱动机器人完成倒水动作。与现有技术相比，本发明具有对环境的泛化适应能力强、部署复杂度低等优点。

技术领域

本发明涉及倒水服务机器人控制方法技术领域，尤其是涉及一种基于动态模型强化学习的倒水服务机器人控制方法。

背景技术

解决机器人倒水任务对机器人实现其他复杂高精度任务的具有重要的意义，相较于机器人抓取、放置等简单任务，机器人进行倒水时动作更加复杂、动作所带来的不确定性更大、对精度的更高、实现更加困难。在传统的机器人控制领域，用机器人做各种任务大多以编程手段为主，即在特定场景下先设定一个目标，通过规划编程实现机器人的某一项功能，这样的方法的泛化能力很弱，环境产生的噪声可能会严重影响，或者当场景发生变化时，就需要针对新场景重新进行规划或编程，这样大大加重了人工劳动，效率非常低。

在人工智能机器人控制领域，强化学习算法已经表现出很强的性能，但是因为强化学习算法是一种基于探索和试错的算法，需要巨量的交互数据对策略进行训练，将其直接运用到真实环境从技术上来说是行痛的，所以目前的将强化学习算法应用于机器人控制绝大多数都是在模拟环境中进行的，而如果将在模拟环境中学习得到的策略直接迁移到真实环境中，策略在真实环境中的表现又不尽如人意。

人在学习某项任务时，其实并不是纯粹的与环境进行大量交互而进行学习的，其实在与真实环境交互的同时人也在脑中对环境进行了建模，以打游戏为例，人在进行少量的几次游戏后，便可以通过“想象”进行自我训练，这个“想象”的过程其实就是用脑中构建的虚拟环境对行为决策进行训练的过程。

例如中国专利CN108762101A中公开了一种基于传感监测的倒水服务机器人调控系统，通过水位传感监测和水温传感监测，对人们正在使用的水杯内的水量和水温进行实时监测；通过语音确认控制方式，经过人体语音确认后进行相应的倒水操作，虽然可以驱动机器人实现倒水服务，但是需要部署水位传感器、水温传感器等多种传感器，只能在部署了传感器之后才能使用，限制因素较多，泛化能力弱，数据收集比较困难，并且不够智能，环境的复杂程度对任务完成具有较大的影响，无法适应较为复杂的环境。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种对环境的泛化适应能力强、部署复杂度低的基于动态模型强化学习的倒水服务机器人控制方法。

本发明的目的可以通过以下技术方案来实现：

一种基于动态模型强化学习的倒水服务机器人控制方法，所述的控制方法包括：

步骤1：基于深度相机获取三维空间的视觉信息；

步骤2：利用深度神经网络完成对机器人、源容器和目标容器的识别，同时获得源容器、目标容器之间的相对位置信息、液体类型以及液位高度信息，完成状态信息的获取；

步骤3：根据步骤2获取的信息建立动态模型模拟当前环境，并利用动态模型对策略网络进行训练；

步骤4：待策略网络收敛后，将机器人的位姿信息和状态信息输入至策略网络，输出机器人动作策略；

步骤5：使用步骤4预测出的机器人动作策略驱动机器人完成倒水动作。

优选地，所述的步骤2具体为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载