[发明专利]网络训练方法、操作控制方法、装置、存储介质和设备有效
申请号: | 201711004078.0 | 申请日: | 2017-10-24 |
公开(公告)号: | CN108229678B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 马政;刘春晓;侯跃南;张伟;吕健勤 | 申请(专利权)人: | 深圳市商汤科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G05B13/02;B25J9/16;B25J13/00 |
代理公司: | 北京康达联禾知识产权代理事务所(普通合伙) 11461 | 代理人: | 张雪飞;金丹 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 训练 方法 操作 控制 装置 存储 介质 设备 | ||
1.一种网络训练方法,包括:
从多个训练主机分别接收状态动作样本数据,所述状态动作样本数据至少包括操作状态数据以及相应的动作控制数据并且与操作控制的操作环境对应;其中,从所述多个训练主机接收的状态动作样本数据至少与两种操作环境对应;
将接收到的状态动作样本数据以及对应的操作环境的数据存储到样本数据库中;
从所述样本数据库获取与预定的操作环境对应的状态动作样本数据;
使用从所述样本数据库获取到的所述状态动作样本数据,训练用于操作控制的目标神经网络;
将经过训练的目标神经网络以及目标操作环境的数据分别发送给所述多个训练主机,以使得所述多个训练主机根据所述目标神经网络生成对应于相应的目标操作环境的新的状态动作样本数据,发送给多个所述训练主机的所述目标操作环境的数据对应于至少两种操作环境。
2.根据权利要求1所述的方法,其中,在从多个训练主机分别接收状态动作样本数据之前,所述方法还包括:
初始化所述目标神经网络,并且将初始化的目标神经网络发送给多个所述训练主机,以使得所述训练主机根据所述目标神经网络生成所述状态动作样本数据。
3.根据权利要求1所述的方法,其中,所述目标神经网络包括控制策略网络和价值网络,包括所述控制策略网络用于生成机械臂抓取物体的抓取控制数据,所述价值网络用于对控制策略网络生成的抓取控制数据生成奖励估计数据。
4.根据权利要求3所述的方法,其中,所述动作控制数据为抓取控制数据,所述状态动作样本数据还包括控制结果数据和动作控制奖励数据。
5.根据权利要求2~4中任一项所述的方法,其中,所述操作环境的数据包括机械臂的物理参数数据、抓取物体的参数数据和抓取环境的数据。
6.一种网络训练方法,包括:
通过本地的目标神经网络,获取操作状态数据的动作控制数据;
向中央训练服务器发送包括所述操作状态数据和相应的动作控制数据的状态动作样本数据,所述状态动作样本数据与操作控制的操作环境对应并且对应的操作环境与至少一个其他训练主机的操作环境不同;
从中央训练服务器接收经过训练的目标神经网络和目标操作环境的数据;
根据所述目标操作环境的数据设置用于产生新的操作状态数据的操作环境;
将接收到的目标神经网络设置为本地的目标神经网络,以根据本地的目标神经网络采集对应于所述目标操作环境的新的状态动作样本数据。
7.根据权利要求6所述的方法,其中,在通过本地的目标神经网络,获取操作状态数据的动作控制数据之前,所述方法还包括:
接收初始化的目标神经网络,并且将所述初始化的目标神经网络设置为本地的目标神经网络。
8.根据权利要求6所述的方法,其中,所述目标神经网络包括控制策略网络和价值网络,所述控制策略网络用于生成机械臂抓取物体的抓取控制数据,所述价值网络用于对控制策略网络生成的抓取控制数据生成奖励估计数据。
9.根据权利要求8所述的方法,其中,所述根据所述目标操作环境的数据设置用于产生所述操作状态数据的操作环境,包括:
根据所述目标操作环境的数据,为机械臂抓取仿真平台设置所述操作环境。
10.根据权利要求9所述的方法,其中,在通过本地的目标神经网络,获取操作状态数据的动作控制数据之前,所述方法还包括:
通过设置了目标操作环境的机械臂抓取仿真平台,获取所述操作状态数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市商汤科技有限公司,未经深圳市商汤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711004078.0/1.html,转载请声明来源钻瓜专利网。