[发明专利]智能体训练方法及系统、计算机设备、可读存储介质在审
申请号: | 201911016946.6 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110824954A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 贾政轩;林廷宇;肖莹莹;施国强;李伯虎;张迎曦 | 申请(专利权)人: | 北京仿真中心 |
主分类号: | G05B17/02 | 分类号: | G05B17/02 |
代理公司: | 北京正理专利代理有限公司 11257 | 代理人: | 付生辉 |
地址: | 100854 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 训练 方法 系统 计算机 设备 可读 存储 介质 | ||
本发明公开一种智能体训练方法,包括以下步骤:S1、构建简化环境,在所述简化环境下进行智能体的初步训练;S2、构建保真环境,在所述保真环境下进行智能体的补充训练;S3、构建半实物仿真环境,在所述半实物仿真环境下进行智能体的性能验证。本发明实现从模型训练向模型在物理空间应用的平滑过渡,实现可接受时间范围内,在实际系统中具备良好可靠性智能体的训练,使现有的数据驱动计算智能的方法的应用领域得到进一步扩展,并具备向真实物理系统迁移应用的能力。
技术领域
本发明涉及人工智能技术领域。更具体地,涉及一种智能体训练方法及系统、计算机设备、可读存储介质。
背景技术
近年来,随着人工智能技术的快速发展,数据驱动的手段已逐渐显现出它的威力。通过数据驱动的计算智能手段,计算机已逐渐在多个领域实现性能的飞跃式提升,甚至在一些领域已远超人类水平。借助深度学习技术,计算机在海量数据中进行训练,已经在图像识别、目标检测、机器翻译、词句预测等领域,甚至诸如诗词创作、绘画创作、封面设计等创造性设计领域达到非常高的水平。特别是图像识别、目标检测与机器翻译等领域技术已经成功实现产品化、商业化。同时,基于深度强化学习,计算机与给定环境及规则程序的海量交互式训练,也已经分别在Atari游戏、MuJoCo、Gym等简单交互游戏、围棋、象棋、国际象棋、将棋、德州扑克等回合类游戏、以及Dota2、星际争霸2等复杂即时策略游戏中战胜顶级人类玩家。
然而随着学习技术应用领域的不断扩展,一些工程应用的实际问题开始显现,在一定程度上制约了学习技术在一些领域的应用。具体而言,截至目前,学习技术所取得的辉煌成就,无论是识别预测类任务还是即使决策类任务,均依赖于海量的具体任务数据所展开的智能体训练。对于图像类、语音类以及计算机游戏类的任务,海量数据的获取是相对容易的。一方面,图像及语音类数据的采集成本不高,采集也较为方便;另一方面,游戏类数据采集更为便利,可直接用计算机进行生成。
然而,当遇到诸如复杂产品设计等大型复杂工程研制中的设计任务时,能获得的数据体量将十分有限。在极为有限的数据集下,采用原方法训练将导致智能体模型严重的过拟合,难以支撑具备良好拟合及泛化能力智能体的训练。针对上述问题,可采用具备完备模型校验的仿真系统生成数据以补充训练。但是考虑到具备完备模型校验的仿真系统与真实物理系统逼近程度的要求,仿真系统将十分复杂,将导致海量数据生成的耗时难以接受。
发明内容
为了解决背景技术中所提出的技术问题,本发明的第一方面提供了一种智能体训练方法,包括以下步骤:
S1、构建简化环境,在所述简化环境下进行智能体的初步训练;
S2、构建保真环境,在所述保真环境下进行智能体的补充训练;
S3、构建半实物仿真环境,在所述半实物仿真环境下进行智能体的性能验证。
可选地,所述S1包括:
S11、构建多个简化环境模型;
S12、对多个所述简化环境模型的原理进行正确性验证;
S13、根据经过正确性验证后的多个所述简化环境模型来构建所述简化环境;
S14、在所述简化环境下对智能体进行初步训练;
S15、对经过初步训练后的智能体进行保存。
可选地,所述S11包括:
获取多个真实物理系统的核心原理以及相对应的机理行为;
根据多个核心原理以及相对应的机理行为来构建多个所述简化环境模型。
可选地,所述S12包括:
将多个所述简化环境模型的原理与多个真实物理系统的核心原理分别进行对比,根据对比结果来对多个所述简化环境模型的原理进行正确性验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京仿真中心,未经北京仿真中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911016946.6/2.html,转载请声明来源钻瓜专利网。