[发明专利]与不安全的物理环境交互在审
申请号: | 202011514983.2 | 申请日: | 2020-12-21 |
公开(公告)号: | CN113094113A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | D·里布;J·Z·柯尔特;M·罗德里克;V·纳加拉扬 | 申请(专利权)人: | 罗伯特·博世有限公司;卡内基梅隆大学 |
主分类号: | G06F9/445 | 分类号: | G06F9/445 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 毕铮;周学斌 |
地址: | 德国斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不安全 物理 环境 交互 | ||
1.一种配置与物理环境交互的系统的计算机实现的方法(700),其中系统在物理环境状态下的动作根据转移概率导致物理环境的更新状态,所述方法包括:
-访问(710)指示已知可安全执行的状态-动作对的安全组的数据和指示与物理环境进行交互时要避免的状态-动作对的不安全组的数据,
-当系统与物理环境交互时,维持状态-动作对导致更新状态的经验转移概率,
-通过在迭代中进行以下操作来迭代地控制与物理环境的交互:
-获得(720)指示物理环境的当前状态的数据;
-更新(730)状态-动作对的安全组,包括:
-基于类似的其他状态-动作对的经验转移概率来估计(732)状态-动作对的估计转移概率;
-如果状态-动作对没有被标记为不安全,并且基于估计转移概率,可以以足够概率从该状态-动作对达到状态-动作对的安全组,则将该状态-动作对包括(734)在状态-动作对的安全组中;
-从状态-动作对的安全组中选择(740)要在物理环境的当前状态下执行的动作;
-将要执行的动作提供(750)给系统。
2.根据权利要求1所述的方法(700),其中系统根据奖励函数与物理环境进行交互,所述方法包括:在迭代中,基于奖励函数确定要在物理环境的当前状态下执行的面向目标的动作,并且只有在物理环境的当前状态下的所述动作包括在状态-动作对的安全组中时,才选择所述动作。
3.根据权利要求2所述的方法(700),包括:确定通过执行面向目标的动作可达到的一组目标状态-动作对,以及仅当每个目标状态-动作对包括在状态-动作对的安全组中时,才执行面向目标的动作。
4.根据权利要求2或3所述的方法(700),包括:选择与未包括在安全组中的面向目标的状态-动作对类似的类似状态-动作对,以及基于类似状态-动作对的经验转移概率来估计面向目标的状态-动作对的转移概率。
5.根据权利要求2-4中的任一项所述的方法(700),包括:选择返回状态-动作对以返回到目标状态-动作对的组。
6.根据权利要求1或2所述的方法(700),包括:确定动作,并且如果该动作未包括在状态-动作对的安全组中,则引发警报。
7.根据前述权利要求中的任一项所述的方法(700),包括:通过仅比较与转移概率相关的相应状态和/或动作的部分,来确定状态-动作对与另一状态-动作对之间的相似度。
8.根据前述权利要求中的任一项所述的方法(700),包括:在至少一个迭代中,估计对于其没有经验转移概率可用的状态-动作对的转移概率,并选择所述动作以执行。
9.根据前述权利要求中的任一项所述的方法(700),其中估计状态-动作对的转移概率包括:
-确定状态-动作对与对于其经验转移概率可用的一个或多个其他状态-动作对之间的相似度;
-至少基于相似度,选择最相关的其他状态-动作对;以及
-基于所选的其他状态-动作对的经验转移概率,确定该状态-动作对的估计转移概率。
10.根据权利要求9所述的方法(700),进一步包括确定一个或多个其他状态-动作对的经验转移概率的置信区间,附加地基于所确定的置信区间来选择最相关的其他状态-动作对。
11.根据前述权利要求中的任一项所述的方法(700),其中在训练阶段中执行与物理环境的所述交互的控制,所述方法进一步包括通过重复地进行以下操作在使用阶段中控制与物理环境的进一步交互:
-获得物理环境的当前状态;
-从训练阶段中确定的状态-动作对的安全组中选择要在物理环境的当前状态下执行的动作;以及
-向系统提供要执行的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司;卡内基梅隆大学,未经罗伯特·博世有限公司;卡内基梅隆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011514983.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种家用制饺器
- 下一篇:一种爆浆型压片式速溶固体饮料的制备工艺