首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于强化学习的采煤机机身范围内支架动作序列决策方法在审

申请号：	202310500926.6	申请日：	2023-05-04
公开（公告）号：	CN116562135A	公开（公告）日：	2023-08-08
发明（设计）人：	常亚军;王海恩;杨艺;陈众众;孙世富;张义坚;魏泽烁;高雪川;侯惠超	申请（专利权）人：	郑州恒达智控科技股份有限公司
主分类号：	G06F30/27	分类号：	G06F30/27;G06N7/01;G06N20/00;E21D23/12
代理公司：	郑州知一智业专利代理事务所(普通合伙) 41172	代理人：	刘彩霞
地址：	450000 河南省郑州市***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习采煤机身范围内支架动作序列决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的采煤机机身范围内支架动作序列决策方法，其特征在于，包括：

设定采煤机机身范围内地质条件，包括煤壁稳定性、顶板压力和顶煤破碎程度；

设定采煤机机身范围内支架动作序列；

基于状态变量，以及所述采煤机机身范围内地质条件和采煤机机身范围内支架动作序列，建立马尔科夫模型的状态空间、动作空间和回报值函数；

根据所述马尔科夫模型，建立支架动作决策的强化学习模型；

根据所述强化学习模型，获取支架最优动作序列。

2.根据权利要求1所述的基于强化学习的采煤机机身范围内支架动作序列决策方法，其特征在于，所述强化学习模型包括：

动作值函数Q(s,a)：表示工作面地质状态为s时，执行动作序列a之后，从当前时刻起，直到一刀煤截割完毕，所有的回报函数值的叠加；

支架决策策略π(s,a)：表示工作面地质状态为s时，选取动作序列a的概率；支架决策策略是需要学习的对象，学习的目标是使策略π(s,a)达到最优π^*(s,a)；

所述强化学习模型的强化学习过程包括：

(1)初始化支架动作值函数Q(s,a)＝0；

(2)初始化支架动作策略：π(s,a)＝0.25，表示四种动作序列的选取概率为相同的，均为0.25；

(3)人工识别工作面地质条件状态s，并输入；

(4)执行一步ε贪婪算法，并根据策略π(s,a)选取策略；

(5)支架执行步骤(4)中得到的动作序列a，人工识别煤壁稳定性，并得到回报值R(a)；

(6)按照以下Q-learning方法对支架的动作值函数学习：

该式是对Q(s,a)的更新，其中，←右侧的Q(s,a)是执行步骤(5)动作前的值；s′表示执行完动作序列a后，进入的下一个状态；a′表示在状态s′条件下最大Q值对应的动作序列；表示在状态s′下，使得动作值函数最大的那个值；0＜γ＜1表示折扣因子；0＜α＜1表示学习率；

(7)策略更新：根据学习到的Q(s,a)值，对策略π(s,a)进行更新，如下式所示：

(8)重复步骤(3)-(7)，直到下式成立，表明策略收敛：

式中，π₁(s,a)表示前一轮策略，π₂(s,a)表示更新过后的策略，0＜δ＜1，||π₁(s,a)-π₂(s,a)||表示π₁(s,a)与π₂(s,a)的欧式距离。

3.根据权利要求2所述的基于强化学习的采煤机机身范围内支架动作序列决策方法，其特征在于，ε贪婪算法包括：

1)设定一个贪婪阈值ε，0＜ε＜1；

2)产生一个0至1的随机数p；

当p＞ε时，以π(s,a)的概率选取动作序列a；p≤ε时，选择4个动作序列的概率值为0.25，并以此选取动作序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于郑州恒达智控科技股份有限公司，未经郑州恒达智控科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310500926.6/1.html，转载请声明来源钻瓜专利网。

上一篇：用于特征选择的蚁狮优化方法、系统、设备及存储介质
下一篇：基于物联网的固废处理方法、装置及系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top