[发明专利]一种智能体决策信息展示方法、装置、电子设备及存储介质在审
申请号: | 202011643879.3 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112700011A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 王雨萱;徐昀;高浩 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 决策 信息 展示 方法 装置 电子设备 存储 介质 | ||
本申请实施例公开一种智能体决策信息展示方法、装置、电子设备及存储介质,涉及机器学习技术领域,为更加直观地展示智能体决策信息而发明。智能体决策信息展示方法,包括:在展示的智能体决策信息显示界面中选择一智能体活动周期,并基于选中的智能体活动周期选择一智能体;在所述显示界面中提供所述选择的智能体在所述选中的智能体活动周期中的动作步骤选择控件;基于在所述动作步骤选择控件,在所述智能体的动作步骤集合中,选择一动作步骤;基于选择的所述动作步骤,展示所述智能体在所述动作步骤执行具体动作所进行决策的决策信息。本申请实施例适用于机器学习中智能体决策信息的展示。
技术领域
本申请涉及机器学习技术领域,尤其涉及一种智能体决策信息展示方法、装置、电子设备及存储介质。
背景技术
强化学习是机器学习的方法论之一,一个典型的强化学习(RL)问题可以概括为:学习一个可以让智能体(Agent)在特定环境(Environment)中,根据当前的状态(State),做出行动(Action),从而获得最大回报(Reward)的一个最优策略(Policy)。
智能体学习完成后,为了对用户决策提供辅助,往往需要提供学习过程的一些信息,比如智能体在学习过程中的一些决策信息。目前主流的强化学习产品主要面向有一定基础的技术人员,在结果展示方面通常通过代码形式完成,不够直观。
发明内容
有鉴于此,本申请实施例提供一种智能体决策信息展示方法、装置、电子设备及存储介质,能够更加直观地展示智能体决策信息。
第一方面,本申请实施例提供一种智能体决策信息展示方法,包括:
展示智能体决策信息显示界面;
在所述显示界面中选择一智能体活动周期,并基于选中的智能体活动周期选择一智能体;其中,所述智能体为在所述智能体活动周期中执行具体动作的智能体;
在所述显示界面中提供所述选择的智能体在所述选中的智能体活动周期中的动作步骤选择控件;
基于在所述动作步骤选择控件,在所述智能体的动作步骤集合中,选择一动作步骤;
基于选择的所述动作步骤,展示所述智能体在所述动作步骤执行具体动作所进行决策的决策信息。
根据本申请实施例一具体实现方式,每一智能体活动周期对应有相应的累计奖励值;在所述显示界面中布置有智能体活动周期选择框,在所述智能体活动周期选择框中布置有展开显示操作按钮;
所述在所述显示界面中选择一智能体活动周期,包括:
基于对所述智能体活动周期选择框中的展开显示操作按钮的操作,展示至少一个可供选择的智能体活动周期及对应的累计奖励值;
基于所述累计奖励值选择一智能体活动周期。
根据本申请实施例一具体实现方式,在所述显示界面中布置有智能体选择框,在所述智能体选择框中布置有展开显示操作按钮;
所述基于选中的智能体活动周期选择一智能体,包括:
基于对所述智能体选择框中的展开显示操作按钮的操作,展示至少一个可供选择的智能体;
从展示的至少一个可供选择的智能体中选择一智能体。
根据本申请实施例一具体实现方式,所述动作步骤选择控件包括坐标轴控件和/或选择框控件;
所述基于在所述显示界面中提供的动作步骤选择控件,在所述智能体的动作步骤集合中,选择一动作步骤,包括:
基于所述坐标轴控件和/或选择框控件,在所述智能体的动作步骤集合中,选择一动作步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011643879.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置