[发明专利]一种基于深度强化学习的黄桃挖核机器人行为控制方法有效

申请号：	201711102908.3	申请日：	2017-11-10
公开（公告）号：	CN107944476B	公开（公告）日：	2019-06-21
发明（设计）人：	葛宏伟;林娇娇;孙亮;赵明德	申请（专利权）人：	大连理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06F17/50;B25J9/16
代理公司：	大连理工大学专利中心 21200	代理人：	温福雪;侯明远
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于计算机应用及人工智能技术领域，涉及一种基于深度强化学习的黄桃挖核机器人行为控制策略。针对传统的机械控制方法难以有效的对黄桃挖核机器人进行行为控制问题，本发明提出了一种基于深度强化学习的方法对具有视觉功能的黄桃挖核机器人进行行为控制，以期提高其工作性能。本专利发挥了深度学习的感知能力和强化学习的决策能力，使机器人能够利用深度学习识别桃核状态，进而，通过强化学习的方法指导单片机控制电机挖除桃核，以最终完成挖核任务。本发明对于利用机器代替人工劳力的挖核任务具有优势。
搜索关键词：	一种基于深度强化学习黄桃挖核机器人行为控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度强化学习的黄桃挖核机器人行为控制方法，步骤如下：(1)特征提取首先利用深度学习方法进行特征提取，建立训练集和测试集；其中，使用10000张黄桃剖面图片作为训练集，分为360个类别，每个类别相差1°转角，测试集中包含500张桃核图片；训练集和测试集的图片均具有标签；使用具有5层的卷积神经网络对训练集的核桃状态进行特征提取；(2)构建桃核图像的分类器采用softmax分类器对黄桃剖面图片进行分类，由于黄桃剖面图片分为360个类，因此分类的输出为360维的向量；首先确定分类器基本的决策规则，然后确定用来划分类别的阈值；用已知的黄桃剖面图片来训练分类器，已知的训练集是由已经被标记过的对象组成，提取这些对象的特征，然后利用分类器的决策面把特征向量划分成不同的区域，最终获得输入桃核图像的类别；具体地，把标准的人工挖核的桃核核尖的指向作为标准值，把摄像机实际获取的图像的桃核核尖指向偏离标准值的角度每一度分为1个类，有360个类，即类别数k＝360；softmax分类器函数h_θ(x)形式如公式(1)所示：其中，θ₁，θ₂，...，θ_k是模型的参数，x⁽ⁱ⁾是第i个输入样本，y⁽ⁱ⁾是第i个输入样本对应的类别，这一项是对概率分布进行归一化，使得所有的概率之和为1；(3)建立强化学习的动作集搭建的黄桃挖核机器人为6轴机器人，由6个伺服电机协同工作，完成黄桃的挖核工作，6个伺服电机的布置位置分别为：旋转底盘布置1个伺服电机、摩擦轮机构布置2个伺服电机、刀具机构布置2个伺服电机、下料机构布置1个伺服电机；将伺服电机旋转一周视为360个动作，即每一整数角度都为一个动作，6个伺服电机共有360*6＝2160个动作，形成动作集；(4)建立强化学习的策略函数和值函数，获得最优的挖核行为控制策略将特征提取步骤中，由卷积神经网络获得的状态信息作为强化学习的输入；由策略函数根据状态信息，执行相应的动作，然后获取回报，接着根据新的状态继续执行新的动作，直至结束；由于共6个伺服电机，执行过程分6步，由6个伺服电机分别执行，立即回报由距离目标位置的角度组成，包括两个部分：一个是旋转底盘距离目标位置的角度，一个是桃子托盘距离目标位置的角度；每一个的角度距离目标位置越近，立即回报越高；因此，立即回报由这两个角度所得的回报两部分组成，设计成如式(2)所示：其中：T为常量，ψ₁为旋转底盘所要到达的目标位置角度，为旋转底盘位置的当前角度，ψ₂为桃子托盘所要达到的目标位置，为桃子托盘的当前位置，s_t是当前时刻的状态，a_t是在当前状态下选择的动作，r是在状态s_t下选择动作a_t所能获得的立即回报；策略函数π(·)根据当前状态，从动作集中选择合适的动作，表示为a_t＝π(s_t)；即实现从桃子状态到电机转动角度的映射；桃子状态就是黄桃剖面图片，动作就是电机要转动的角度，通过强化学习训练出一个从黄桃剖面到电机转动角度的表，通过查表的方式完成策略函数，最终得到最优的黄桃挖核行为控制策略；(5)基于行为控制策略的机器人动作协同过程首先将黄桃放置在桃子托盘上，机器人拍照获取桃子图像，经过深度学习得到桃子图像状态，然后运行底部托盘电机，使其运动到下一个工位；下一个工位为调整装置，包括两个动作：一个是伸缩机械手臂，将调整装置与桃子托盘接触；另一个是摩擦轮，通过摩擦轮调整桃子托盘，使得桃子托盘运动，从而改变桃子状态；接着底部托盘继续运动，使其运动到下一个工位，此部分也包括两个动作：升降平台和挖核机构；升降平台的作用是移动挖核机构，挖核机构的作用是夹持刀具去掉桃核，去掉核之后，底部托盘继续运动，到达下一个工位，由下料机构将桃子取下；以上动作的执行以及执行顺序不是由人工设计，而是由强化学习算法自主学习获得；另外以上动作中，每一个动作执行后都需要摄像头获取图像，从而得到桃子状态。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711102908.3/，转载请声明来源钻瓜专利网。

上一篇：基于公共分片子序列的轨迹离群点检测方法
下一篇：一种针对城市群的融合多源数据的遗传分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的黄桃挖核机器人行为控制方法有效

专利文献下载