[发明专利]一种校准加速器束流偏移的强化学习方法有效

专利信息
申请号: 201810206762.5 申请日: 2018-03-14
公开(公告)号: CN110278651B 公开(公告)日: 2020-10-16
发明(设计)人: 周庆国;王金强;杨旭辉;雍宾宾;申泽邦;谢启荣;武强 申请(专利权)人: 兰州大学
主分类号: H05H7/00 分类号: H05H7/00;H05H7/22;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 730000 甘肃省兰*** 国省代码: 甘肃;62
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种校准加速器束流偏移的强化学习方法。在加速器的中能束流传输段中,束流受设备安装精度和周围复杂环境的影响而发生位置偏移,其严重影响了束流所能够达到的能量级别。传统方法是通过复杂的物理计算得到校准电压值,并使用脚本程序自动输入进行不断尝试,其过程复杂繁琐。本文通过对中能束流传输段中的三组水平和竖直方向的四极磁铁内部集成的校准线圈分析,依靠强化学习利用环境和智能体之间交互学习的特性对加速器环境进行建模,是一种使用确定性策略探索连续的大状态空间和动作空间,并利用神经网络逼近最优校准电压值的束流偏移校准方法。
搜索关键词: 一种 校准 加速器 偏移 强化 学习方法
【主权项】:
1.一种校准加速器束流偏移的强化学习方法,其特征在于:包括以下步骤:步骤1:在加速器中使用强化学习主要包括环境、智能体、校准束流奖励机制、确定性策略等。所述的环境即加速器系统,主要包括校准线圈、位置检测器两个核心部件;所述的智能体是强化学习的核心元素,其根据位置检测器的位置检测,对校准线圈施加电压的过程做出一套最优策略;所述的校准束流奖励机制是根据智能体动态决策后,根据施加电压值情况判断束流在校准之后的位置距离轴线中心的距离而设置的一种奖惩规则;所述的确定性策略是指大状态空间和动作空间下,智能体能够自身的在一个确定策略下搜索状态和动作空间的方法。步骤2:根据强化学习过程所需元素信息,构建四元组马尔科夫过程,将加速器系统中位置检测信息、加速器系统中校准线圈施加电压值进行抽象化,定义状态空间S为位置检测器测量值BPM,动作空间A为所施加的校准电压值C(c1,c2,c3),智能体输出动作后获得的奖励R:S×A×S’→R,共同组成马尔科夫决策过程四元组<BPM1,C,R,BPM2>。步骤3:根据动态的束流位置和校准线圈电压值,对加速器系统环境进行建模,并在设置长期累积期望γ折扣奖励的基础上,定义策略π,状态‑动作值函数Q(s,c)。建立Q(s,a)的Bellman方程关系,得出下一个状态与当前状态之间的关系,并得到最优状态‑动作值函数Q*(s,c)。步骤4:根据状态‑动作值函数的Bellman方程,使用确定性策略对大状态空间和动作空间进行探索学习。步骤5:使用Actor‑Critic框架和深度神经网络逼近最优值求解。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州大学,未经兰州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810206762.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top