[发明专利]基于强化学习的采煤机机身范围内支架动作序列决策方法在审
申请号: | 202310500926.6 | 申请日: | 2023-05-04 |
公开(公告)号: | CN116562135A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 常亚军;王海恩;杨艺;陈众众;孙世富;张义坚;魏泽烁;高雪川;侯惠超 | 申请(专利权)人: | 郑州恒达智控科技股份有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N7/01;G06N20/00;E21D23/12 |
代理公司: | 郑州知一智业专利代理事务所(普通合伙) 41172 | 代理人: | 刘彩霞 |
地址: | 450000 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 采煤 机身 范围内 支架 动作 序列 决策 方法 | ||
本发明涉及采煤机技术领域,具体涉及一种基于强化学习的采煤机机身范围内支架动作序列决策方法,设定采煤机机身范围内地质条件,包括煤壁稳定性、顶板压力和顶煤破碎程度,设定采煤机机身范围内支架动作序列,基于状态变量以及采煤机机身范围内地质条件和采煤机机身范围内支架动作序列,建立马尔科夫模型的状态空间、动作空间和回报值函数,根据马尔科夫模型,建立支架动作决策的强化学习模型,根据强化学习模型,获取支架最优动作序列,可实现采煤机机身范围内支架动作序列决策的学习,并得到最优的决策方法。
技术领域
本发明涉及采煤机技术领域,具体涉及一种基于强化学习的采煤机机身范围内支架动作序列决策方法。
背景技术
综采工作面装备智能化是煤矿智能开采的关键。其中的核心是以采煤机、液压支架和刮板输送机为主体的“三机”协同工作。采煤机机身范围内,支架的动作序列的选取十分重要,直接决定了后续的移架和推溜。为此,需要根据地质条件为基础,完成机身动作的最优决策。
目前,液压支架的跟机主要是以采煤机定位的单一位置为判断基准。由采煤机位置出发,对液压支架进行动作。如2012年陶显等支架电液控制系统跟机自动化技术研究;2015年牛剑锋等综采液压支架跟机自动化智能化控制系统研究;2016年石勇等综采工作面中部跟机自动化控制的数学模型。以上技术液压支架跟机动作均基于采煤机单一位置,进行动作选择。而目前均未有比较有效的采煤机整体位置范围内的液压支架动作的决策方式。
发明内容
有鉴于此,为了解决上述技术问题,本发明提供一种基于强化学习的采煤机机身范围内支架动作序列决策方法。
为了解决上述问题,本发明采用以下技术方案:
一种基于强化学习的采煤机机身范围内支架动作序列决策方法,包括:
设定采煤机机身范围内地质条件,包括煤壁稳定性、顶板压力和顶煤破碎程度;
设定采煤机机身范围内支架动作序列;
基于状态变量,以及所述采煤机机身范围内地质条件和采煤机机身范围内支架动作序列,建立马尔科夫模型的状态空间、动作空间和回报值函数;
根据所述马尔科夫模型,建立支架动作决策的强化学习模型;
根据所述强化学习模型,获取支架最优动作序列。
在一个实施例中,所述强化学习模型包括:
动作值函数Q(s,a):表示工作面地质状态为s时,执行动作序列a之后,从当前时刻起,直到一刀煤截割完毕,所有的回报函数值的叠加;
支架决策策略π(s,a):表示工作面地质状态为s时,选取动作序列a的概率;支架决策策略是需要学习的对象,学习的目标是使策略π(s,a)达到最优π*(s,a);
所述强化学习模型的强化学习过程包括:
(1)初始化支架动作值函数Q(s,a)=0;
(2)初始化支架动作策略:π(s,a)=0.25,表示四种动作序列的选取概率为相同的,均为0.25;
(3)人工识别工作面地质条件状态s,并输入;
(4)执行一步ε贪婪算法,并根据策略π(s,a)选取策略;
(5)支架执行步骤(4)中得到的动作序列a,人工识别煤壁稳定性,并得到回报值R(a);
(6)按照以下Q-learning方法对支架的动作值函数学习:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州恒达智控科技股份有限公司,未经郑州恒达智控科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310500926.6/2.html,转载请声明来源钻瓜专利网。