[发明专利]智能体行为训练方法、装置、系统、存储介质及设备在审
申请号: | 201910028902.9 | 申请日: | 2019-01-12 |
公开(公告)号: | CN109784400A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 何德裕 | 申请(专利权)人: | 鲁班嫡系机器人(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G06N3/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518173 广东省深圳市龙岗*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能体 行为训练 辅助数据 决策数据 观测数据 行为过程 集合 智能体模型 存储介质 辅助行为 决策行为 模型训练 行为模型 辅助的 申请 决策 成功 学习 | ||
本申请涉及一种智能体行为训练方法,所述智能体行为训练方法包括:获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个决策行为数据和对应的决策观测数据对的集合;获取执行辅助的行为过程中的辅助数据;其中,所述辅助数据包括多个辅助行为数据和对应的辅助观测数据对的集合;基于所述决策数据和所述辅助数据,进行模型自主学习,得到智能体行为模型。采用本发明的技术方案,提高了智能体行为训练的成功行。采用本发明的技术方案,节省了模型训练的时间,提高了智能体模型在各种情况下的适应性和准确性。
技术领域
本申请涉及设备控制技术领域,特别是涉及一种智能体行为训练方法、装置、系统、存储介质及设备。
背景技术
随着科技水平的提高,整个社会都向着智能化、自动化的方向发展。越来越多的行为依赖于智能体的实现。比如:通过智能体执行抓取的动作、装配的动作、带动目标物运动等等的动作行为。
人工智能为智能体未来发展带来了无限的可能,通过监督、半监督、强化或者模仿学习等等各种方法对神经网络模型进行训练,从而使得基于该网络模型控制的智能体能够自主的学习执行各种动作。
模仿学习是指从示教者提供的范例中学习,获取示范过程中的专家的多组决策数据,每组决策数据包括状态数据和对应的动作数据,将所有的状态和动作数据对汇总构成新的集合。之后就可以把状态作为特征(feature),动作作为标记(label)进行分类(对于离散动作)或回归(对于连续动作)的学习从而得到最优策略模型。
但是,需要看到的是,通过模仿学习的方法在对神经网络进行训练的过程中,在很多情况下不能获得良好的模型训练结果。
发明内容
基于此,本发明提供一种智能体行为训练方法、装置、系统、存储介质及设备。
本发明第一方面提供一种智能体行为训练方法,所述智能体行为训练方法包括:
获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个决策行为数据和对应的决策观测数据;
获取执行辅助的行为过程中的辅助数据;其中,所述辅助数据包括多个辅助行为数据和对应的辅助观测数据;
基于所述决策数据和所述辅助数据,进行模型自主学习,得到智能体行为模型。
进一步,所述基于所述决策数据和所述辅助数据,进行模型自主学习,得到智能体行为模型包括:
基于所述决策数据和所述辅助数据,训练初始模型,得到预处理模型;
进行预处理模型自主学习,得到智能体行为模型;
进一步,所述基于所述决策数据和所述辅助数据,进行模型自主学习,得到智能体行为模型包括:
基于所述决策数据和所述辅助数据,进行初始模型自主学习,得到智能体行为模型。
进一步,所述获取执行专家的行为过程中的决策数据包括:
获取所述执行专家的行为过程中的多个当前时刻的决策行为数据;
获取所述执行专家的行为过程中第一传感器发送的所述多个当前时刻的所述决策观测数据;其中,所述当前时刻的决策行为数据与所述当前时刻的决策观测数据相对应;或
获取所述执行专家的行为过程中第二传感器发送的多个当前时刻所述决策行为数据的相关信息;
解析所述相关信息,生成多个上一时刻的所述决策行为数据;
获取所述执行专家的行为过程中第一传感器发送的所述多个上一时刻的所述决策观测数据;其中,所述上一时刻的所述决策行为数据与所述上一时刻的所述决策观测数据相对应。
进一步,所述获取执行辅助的行为过程中的辅助数据包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鲁班嫡系机器人(深圳)有限公司,未经鲁班嫡系机器人(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910028902.9/2.html,转载请声明来源钻瓜专利网。