[发明专利]以学习的视觉实体为基础的强化学习神经网络在审
申请号: | 201980063799.X | 申请日: | 2019-09-27 |
公开(公告)号: | CN112771542A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 卡他林-杜米特鲁·约内斯库;泰亚斯·达塔特拉亚·库尔卡尼 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学习 视觉 实体 基础 强化 神经网络 | ||
1.一种强化学习神经网络系统,包括:
用于接收定义环境的观测的观测数据的输入,其中,所述观测包括一个或多个图像;
用于从所述环境接收环境奖励数据的输入,所述环境奖励数据定义响应于执行动作而接收到的外在奖励;
提供动作数据以用于选择要由在所述环境中行动的代理执行的动作的输出;
视觉实体标识神经网络子系统,所述视觉实体标识神经网络子系统被配置成处理所述观测数据以确定针对所述一个或多个图像的空间图的集合,每个空间图表示学习的离散视觉实体的集合中的一个学习的离散视觉实体,每个空间图包括图像素,其中,每个图像素标识所述一个或多个图像的对应区域是否与针对所述空间图的所述离散视觉实体相关联;以及
强化学习神经网络子系统,所述强化学习神经网络子系统被配置成处理来自所述空间图的集合的数据和所述环境奖励数据以提供所述动作数据。
2.根据权利要求1所述的强化学习神经网络系统,其中,所述视觉实体识别神经网络子系统包括实体编码神经网络以及矢量量化器,所述实体编码神经网络被配置成将所述观测数据编码为每个图像素的激活,所述矢量量化器被配置成将每个图像素的所述激活指派给表示所述离散视觉实体中的一个离散视觉实体的嵌入矢量以将该图像素分类为所述离散视觉实体的集合中的所述一个离散视觉实体。
3.根据权利要求2所述的强化学习神经网络系统,进一步包括图像外观编码神经网络以及视觉实体标识子系统训练器,所述图像外观编码神经网络被配置成将来自所述观测数据的图像外观数据编码为与所述图像素相对应的编码图像外观数据,所述视觉实体标识子系统训练器被配置成利用损失函数来训练所述视觉实体标识神经网络子系统,所述损失函数取决于所述编码图像外观数据的分布与每个图像素的所述激活之间的差异。
4.根据权利要求2或3所述的强化学习神经网络系统,进一步包括帧编码神经网络以及视觉实体标识子系统训练器,所述帧编码神经网络被配置成将所述空间图的集合编码为当前帧的帧嵌入数据,所述视觉实体标识子系统训练器被配置成训练所述视觉实体标识神经网络子系统以区分在与所述当前帧相距运动时间窗帧数内部和外部的帧。
5.根据权利要求2、3或4所述的强化学习神经网络系统,进一步包括帧编码神经网络,动作编码神经网络以及视觉实体标识子系统训练器,所述帧编码神经网络被配置成将所述空间图的集合编码为当前帧的帧嵌入数据,所述动作编码神经网络被配置成将所述动作数据编码为表示在动作时间窗内采取的一个或多个动作的编码动作数据,所述视觉实体标识子系统训练器被配置成利用取决于所述编码动作数据的损失函数来训练所述视觉实体标识神经网络子系统。
6.根据任一项前述权利要求所述的强化学习神经网络系统,进一步包括内在奖励生成子系统,所述内在奖励生成子系统被配置成处理来自所述空间图的集合的所述数据以生成一个或多个内在奖励的内部奖励数据,其中,所述一个或多个内在奖励取决于所述空间图的内容的一个或多个几何特性,并且其中,所述强化学习神经网络子系统被配置成处理所述内部奖励数据以提供所述动作数据。
7.根据权利要求6所述的强化学习神经网络系统,其中,所述内在奖励生成子系统被配置成针对每个空间图生成所述内部奖励数据,并且其中,所述一个或多个内在奖励包括所述空间图的图像素值的面积、位置、以及质心中的一个或多个的度量。
8.根据权利要求6或7所述的强化学习神经网络系统,其中,所述强化学习神经网络子系统被配置成针对每个空间图的所述几何特性中的每一个确定选项Q值;并且选择由空间图中的一个和所述几何特性中的一个的组合定义的选项,并且响应于一系列观测而提供一系列动作的动作数据,其中,所述一系列动作中的动作使用所选择的选项的所述选项Q值来选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980063799.X/1.html,转载请声明来源钻瓜专利网。