[发明专利]一种校准加速器束流偏移的强化学习方法有效

申请号：	201810206762.5	申请日：	2018-03-14
公开（公告）号：	CN110278651B	公开（公告）日：	2020-10-16
发明（设计）人：	周庆国;王金强;杨旭辉;雍宾宾;申泽邦;谢启荣;武强	申请（专利权）人：	兰州大学
主分类号：	H05H7/00	分类号：	H05H7/00;H05H7/22;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	730000 甘肃省兰***	国省代码：	甘肃;62
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种校准加速器束流偏移的强化学习方法。在加速器的中能束流传输段中，束流受设备安装精度和周围复杂环境的影响而发生位置偏移，其严重影响了束流所能够达到的能量级别。传统方法是通过复杂的物理计算得到校准电压值，并使用脚本程序自动输入进行不断尝试，其过程复杂繁琐。本文通过对中能束流传输段中的三组水平和竖直方向的四极磁铁内部集成的校准线圈分析，依靠强化学习利用环境和智能体之间交互学习的特性对加速器环境进行建模，是一种使用确定性策略探索连续的大状态空间和动作空间，并利用神经网络逼近最优校准电压值的束流偏移校准方法。
搜索关键词：	一种校准加速器偏移强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种校准加速器束流偏移的强化学习方法，其特征在于：包括以下步骤：步骤1：在加速器中使用强化学习主要包括环境、智能体、校准束流奖励机制、确定性策略等。所述的环境即加速器系统，主要包括校准线圈、位置检测器两个核心部件；所述的智能体是强化学习的核心元素，其根据位置检测器的位置检测，对校准线圈施加电压的过程做出一套最优策略；所述的校准束流奖励机制是根据智能体动态决策后，根据施加电压值情况判断束流在校准之后的位置距离轴线中心的距离而设置的一种奖惩规则；所述的确定性策略是指大状态空间和动作空间下，智能体能够自身的在一个确定策略下搜索状态和动作空间的方法。步骤2：根据强化学习过程所需元素信息，构建四元组马尔科夫过程，将加速器系统中位置检测信息、加速器系统中校准线圈施加电压值进行抽象化，定义状态空间S为位置检测器测量值BPM，动作空间A为所施加的校准电压值C(c1,c2,c3)，智能体输出动作后获得的奖励R:S×A×S’→R，共同组成马尔科夫决策过程四元组<BPM1,C,R,BPM2>。步骤3：根据动态的束流位置和校准线圈电压值，对加速器系统环境进行建模，并在设置长期累积期望γ折扣奖励的基础上，定义策略π，状态‑动作值函数Q(s,c)。建立Q(s,a)的Bellman方程关系，得出下一个状态与当前状态之间的关系，并得到最优状态‑动作值函数Q^*(s,c)。步骤4：根据状态‑动作值函数的Bellman方程，使用确定性策略对大状态空间和动作空间进行探索学习。步骤5：使用Actor‑Critic框架和深度神经网络逼近最优值求解。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于兰州大学，未经兰州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810206762.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H05 其他类目不包含的电技术
H05H 等离子体技术
H05H7-00 H05H 9/00至H05H 13/00各组包含的各种装置的零部件
H05H7-02 .用于供给或馈送射频能量的电路或系统
H05H7-04 .磁体系统；其激励
H05H7-06 .双射束装置；多射束装置
H05H7-08 .用于向轨道内注入粒子的装置
H05H7-10 .用于从轨道中射出粒子的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种校准加速器束流偏移的强化学习方法有效

专利文献下载