[发明专利]确定参数确定方法、装置、设备及存储介质在审

申请号：	202011331054.8	申请日：	2020-11-24
公开（公告）号：	CN112527104A	公开（公告）日：	2021-03-19
发明（设计）人：	张万鹏;罗迪君;肖喜	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F3/01	分类号：	G06F3/01
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	徐立
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	确定参数方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种确定参数确定方法、装置、设备及存储介质，属于人工智能领域。本申请实施例中，一方面，为真实环境生成了虚拟环境，以虚拟环境来模拟真实环境，并产生模拟环境数据，基于模拟环境数据更新确定参数，避免了与传感器、控制器等硬件设备的数据交互次数和数据量，从而能够大大提高确定参数的确定效率。另一方面，通过至少两个虚拟环境组合来模拟该真实环境，后续通过虚拟环境执行动作控制指令时，通过随机选择一个虚拟环境来得到模拟环境数据，能够捕捉真实环境中的不确定性，提高虚拟环境的表达能力，缩小虚拟环境与真实环境之间的差异，虚拟环境更加贴合真实环境，进而能够提高确定的确定参数的准确性。

技术领域

本申请涉及人工智能领域，特别涉及一种确定参数确定方法、装置、设备及存储介质。

背景技术

强化学习是机器学习中的一个领域。强化学习强调如何基于环境而行动，以取得最大化的预期利益。近年来强化学习技术被广泛用于各个领域。

目前，动作控制指令的确定参数确定方法通常是在真实场景下，通过传感器实时采集真实环境数据，然后由控制器根据动作控制指令的确定参数对真实环境数据进行处理，确定下一个动作控制指令，再根据下一个动作控制指令，实时采集真实环境数据，根据采集到的真实环境数据，对动作控制指令的确定参数进行更新，确定下下一个动作控制指令，以此类推，最终确定出目标确定参数。

在该方式中，当前学习确定参数的设备需要大量与传感器、控制器等硬件设备进行数据交互，需要大量操控硬件设备，对其损耗较大，导致成本高昂，且由于这些硬件设备在各种工作场景中效率低下，导致上述强化学习过程会受限于这些硬件设备的工作效率，确定动作控制指令的确定参数时效率低下。

发明内容

本申请实施例提供了一种确定参数确定方法、装置、设备及存储介质，能够提高确定参数的确定效率和准确性。所述技术方案如下：

一方面，提供了一种动作控制指令的确定参数确定方法，所述方法包括：

获取真实环境的真实环境数据；

基于所述真实环境数据中至少两组数据，生成所述真实环境对应的至少两个虚拟环境；

从所述至少两个虚拟环境中，随机选择一个目标虚拟环境执行第一动作控制指令，得到模拟环境数据；

基于所述模拟环境数据，对动作控制指令的确定参数进行更新，确定第二动作控制指令；

继续基于所述第二动作控制指令，随机选择一个目标虚拟环境执行第二动作控制指令和更新所述确定参数，直至符合第一目标条件，得到目标确定参数。

在一些实施例中，所述第一目标条件为所述期望值收敛；或者所述第一目标条件为迭代次数达到目标次数。

一方面，提供了一种动作控制指令的确定参数确定装置，所述装置包括：

获取模块，用于获取真实环境的真实环境数据；