[发明专利]基于强化学习的采煤机机身范围内支架动作序列决策方法在审
申请号: | 202310500926.6 | 申请日: | 2023-05-04 |
公开(公告)号: | CN116562135A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 常亚军;王海恩;杨艺;陈众众;孙世富;张义坚;魏泽烁;高雪川;侯惠超 | 申请(专利权)人: | 郑州恒达智控科技股份有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N7/01;G06N20/00;E21D23/12 |
代理公司: | 郑州知一智业专利代理事务所(普通合伙) 41172 | 代理人: | 刘彩霞 |
地址: | 450000 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 采煤 机身 范围内 支架 动作 序列 决策 方法 | ||
1.一种基于强化学习的采煤机机身范围内支架动作序列决策方法,其特征在于,包括:
设定采煤机机身范围内地质条件,包括煤壁稳定性、顶板压力和顶煤破碎程度;
设定采煤机机身范围内支架动作序列;
基于状态变量,以及所述采煤机机身范围内地质条件和采煤机机身范围内支架动作序列,建立马尔科夫模型的状态空间、动作空间和回报值函数;
根据所述马尔科夫模型,建立支架动作决策的强化学习模型;
根据所述强化学习模型,获取支架最优动作序列。
2.根据权利要求1所述的基于强化学习的采煤机机身范围内支架动作序列决策方法,其特征在于,所述强化学习模型包括:
动作值函数Q(s,a):表示工作面地质状态为s时,执行动作序列a之后,从当前时刻起,直到一刀煤截割完毕,所有的回报函数值的叠加;
支架决策策略π(s,a):表示工作面地质状态为s时,选取动作序列a的概率;支架决策策略是需要学习的对象,学习的目标是使策略π(s,a)达到最优π*(s,a);
所述强化学习模型的强化学习过程包括:
(1)初始化支架动作值函数Q(s,a)=0;
(2)初始化支架动作策略:π(s,a)=0.25,表示四种动作序列的选取概率为相同的,均为0.25;
(3)人工识别工作面地质条件状态s,并输入;
(4)执行一步ε贪婪算法,并根据策略π(s,a)选取策略;
(5)支架执行步骤(4)中得到的动作序列a,人工识别煤壁稳定性,并得到回报值R(a);
(6)按照以下Q-learning方法对支架的动作值函数学习:
该式是对Q(s,a)的更新,其中,←右侧的Q(s,a)是执行步骤(5)动作前的值;s′表示执行完动作序列a后,进入的下一个状态;a′表示在状态s′条件下最大Q值对应的动作序列;表示在状态s′下,使得动作值函数最大的那个值;0<γ<1表示折扣因子;0<α<1表示学习率;
(7)策略更新:根据学习到的Q(s,a)值,对策略π(s,a)进行更新,如下式所示:
(8)重复步骤(3)-(7),直到下式成立,表明策略收敛:
式中,π1(s,a)表示前一轮策略,π2(s,a)表示更新过后的策略,0<δ<1,||π1(s,a)-π2(s,a)||表示π1(s,a)与π2(s,a)的欧式距离。
3.根据权利要求2所述的基于强化学习的采煤机机身范围内支架动作序列决策方法,其特征在于,ε贪婪算法包括:
1)设定一个贪婪阈值ε,0<ε<1;
2)产生一个0至1的随机数p;
当p>ε时,以π(s,a)的概率选取动作序列a;p≤ε时,选择4个动作序列的概率值为0.25,并以此选取动作序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州恒达智控科技股份有限公司,未经郑州恒达智控科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310500926.6/1.html,转载请声明来源钻瓜专利网。