[发明专利]用于改进随机控制问题的策略的方法和系统有效
申请号: | 201780028555.9 | 申请日: | 2017-05-09 |
公开(公告)号: | CN109154798B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 丹尼尔·克劳福德;普亚·罗纳格;安娜·莱维特 | 申请(专利权)人: | 1QB信息技术公司 |
主分类号: | G05B13/02 | 分类号: | G05B13/02;G05B21/02;G06N3/04;G06N3/08;G06N99/00 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 梁丽超;田喜庆 |
地址: | 加拿大不列*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 改进 随机 控制 问题 策略 方法 系统 | ||
1.一种用于改进随机控制问题的策略的方法,所述随机控制问题由动作集合、状态集合、作为状态和动作的函数的奖励结构,以及多个决策时期表征,其中,基础随机状态处理的演化取决于所述策略中的多个动作,所述方法包括:
使用耦合到数字计算机和耦合到采样装置控制系统的采样装置,所述采样装置获得表示玻尔兹曼机的样本配置的数据,所述玻尔兹曼机包括:
多个节点,
多个耦合器,
多个偏置,每个所述偏置对应于所述多个节点中的一个节点,
多个耦合权重,每个所述耦合权重对应于所述多个耦合器中的一个耦合器,以及
横向场强;
使用所述数字计算机获得包括所述随机控制问题的所述动作集合、所述状态集合、所述奖励结构以及所述随机控制问题的初始策略的初始化数据,所述策略包括为每个状态选择至少一个动作;
使用所述数字计算机和所述采样装置控制系统,将分别表示所述玻尔兹曼机的每个所述耦合器和每个所述节点的初始权重和所述偏置以及所述横向场强的数据分配给所述采样装置;
进行以下操作直到满足停止标准:
使用所述数字计算机生成当前时期状态动作对,
使用所述数字计算机和所述采样装置控制系统利用生成的当前时期状态动作对来修改表示至少一个所述耦合器和至少一个所述偏置的数据,
执行对应于所述当前时期状态动作对的采样以获得第一采样经验均值,
利用所述数字计算机使用所述第一采样经验均值获得所述当前时期状态动作处的Q函数的值的近似,所述Q函数的值表示所述当前时期状态动作对的效用,
使用所述数字计算机获得未来时期状态动作对,其中,所述状态是通过随机状态处理获得的,并且进一步其中,获得所述动作包括:对包括所述未来时期状态和任何可能的动作的多个所有状态动作对执行随机优化测试,从而在所述未来时期提供所述动作,
更新用于所述未来时期状态的当前策略,
使用所述数字计算机和所述采样装置控制系统,使用所生成的未来时期状态动作对来修改表示至少一个耦合器和至少一个偏置的数据,
执行对应于所述未来时期状态动作对的采样以获得第二采样经验均值,
利用所述数字计算机使用所述第二采样经验均值获得所述未来时期状态动作处的所述Q函数的值的近似,所述Q函数的值表示所述未来时期状态动作对的效用,以及
利用所述数字计算机使用在当前时期状态动作对处生成的所述Q函数的值的近似和所述第一采样经验均值,以及使用所述奖励结构获得的在所述当前时期状态动作对处的对应奖励,来分别更新所述玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置;并且
在满足所述停止标准时使用所述数字计算机提供所述策略。
2.根据权利要求1所述的方法,其中,所述采样装置包括量子处理器,并且其中,所述采样装置控制系统包括量子装置控制系统;进一步其中,所述量子处理器耦合到所述数字计算机和所述量子装置控制系统,进一步其中,所述量子处理器包括多个量子位和多个耦合器,每个所述耦合器用于在两个量子位的交叉处提供通信耦合。
3.根据权利要求1所述的方法,其中,所述采样装置包括被配置为从光学能量源接收能量并生成多个光学参量振荡器的光学装置,以及多个耦合装置,所述多个耦合装置中的每一个能够控制地耦合所述多个光学参量振荡器中的一个光学参量振荡器。
4.根据权利要求1所述的方法,其中,所述采样装置包括中央处理单元和耦合到所述中央处理单元并实现所述玻尔兹曼机的存储器单元,其中,所实现的玻尔兹曼机是由零值横向场强表征的经典玻尔兹曼机;进一步其中,所述存储器单元包括用于获得分别表示所述经典玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序,进一步其中,所述应用程序适用于执行所述经典玻尔兹曼机的模拟量子退火。
5.根据权利要求1所述的方法,其中,所述采样装置包括中央处理单元和耦合到所述中央处理单元并实现所述玻尔兹曼机的存储器单元,其中,所实现的玻尔兹曼机是由非零值横向场强表征的量子玻尔兹曼机;进一步其中,所述存储器单元包括用于获得分别表示所述量子玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序;进一步其中,所述应用程序适用于执行所述量子玻尔兹曼机的模拟量子退火。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于1QB信息技术公司,未经1QB信息技术公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780028555.9/1.html,转载请声明来源钻瓜专利网。