[发明专利]基于强化学习的钻孔力矩稳定性控制系统及方法有效

申请号：	202210379998.5	申请日：	2022-04-06
公开（公告）号：	CN114800493B	公开（公告）日：	2023-10-27
发明（设计）人：	俞建峰;俞俊楠;徐日泰;刘锐;王逸涵;秦天;廖一;方成缘	申请（专利权）人：	江南大学
主分类号：	B25J9/16	分类号：	B25J9/16;B28D1/14;B28D7/00
代理公司：	哈尔滨市阳光惠远知识产权代理有限公司 23211	代理人：	张勇
地址：	214122 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习钻孔力矩稳定性控制系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的钻孔力矩稳定性控制系统，其特征在于，所述控制系统包括：上位机、位移传感器、控制器、力传感器、机械臂、钻孔器；

所述控制器分别与所述上位机、所述位移传感器、所述力传感器连接，所述机械臂与所述控制器连接，所述钻孔器安装在所述机械臂上；

所述上位机用于输入钻孔位置坐标、确定钻孔深度；所述位移传感器用于实时获取钻孔过程中钻头进给的深度；所述力传感器用于实时获取钻孔过程中钻头受到的阻力与扭矩信息；

所述控制器将接收到的钻孔位置进行处理后，控制机械臂运动到钻孔作业的起始位置，并使机械臂与钻孔器处于期望的起钻姿态；

所述控制器接收实时采集的机械臂位姿、推进力和钻孔器受到的阻力与扭矩信号，再通过基于强化学习的钻孔力矩稳定性控制模型输出对应的机械臂的控制指令，包括机械臂的位姿调整指令以及推进力调整指令。

2.根据权利要求1所述的钻孔力矩稳定性控制系统，其特征在于，所述基于强化学习的钻孔力矩稳定性控制模型包括：策略网络和评价网络，所述策略网络根据输入的钻孔状态，输出机械臂位姿调整指令、推进力调整指令，所述评价网络根据输入的钻孔状态和机械臂动作，输出状态动作值Q，所述状态动作值Q为在起始状态下机械臂采取一系列动作之后的累计奖励：

Q^μ(s_t,a_t)＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))]

其中，Q^μ(s_t,a_t)为累计奖励，a_t为当前时刻的机械臂动作，s_t为当前时刻的钻孔状态，r(s_t,a_t)为机械臂当前状态动作的奖励函数，γ为折扣因子，μ(s_t+1)为机械臂的动作决策，s_t+1为下一刻的钻孔状态。

3.根据权利要求2所述的钻孔力矩稳定性控制系统，其特征在于，所述基于强化学习的钻孔力矩稳定性控制模型的构建过程包括：

步骤1：定义所述钻孔状态：s＝(x,y,z,α,β,γ,F,f_x,f_y,f_z,τ_x,τ_y,τ_z)；

其中，(x,y,z,α,β,γ)为机械臂末端位姿，F为推进力大小，(f_x,f_y,f_z,τ_x,τ_y,τ_z)为钻孔器钻头受到的阻力以及扭矩信号；

步骤2：定义所述机械臂动作：a＝(dx,dy,dz,dα,dβ,dγ,dF)；

机械臂末端根据基于强化学习的钻孔力矩稳定性控制模型输出机械臂动作a调整机械臂位姿以及推进力大小，其中，dx,dy,dz,dα,dβ,dγ为机械臂末端六个维度的调整量，dF为机械臂末端的推进力调整量；

步骤3：定义强化学习的奖励函数；

步骤4：构建策略网络和评价网络；所述策略网络包括Online策略网络和Target策略网络，所述评价网络包括Online评价网络以及Target评价网络：

策略网络

评价网络

其中，μ(s|θ^μ)表示输出的当前动作策略，包括机械臂位姿与推进力大小；μ′(s|θ^μ′)表示输出的下一动作策略，包括：下一个动作中机械臂位姿与推进力大小；s表示当前的钻孔状态，θ^μ表示Online策略网络的权重，θ^μ′表示Target策略网络的权重，Q(s|θ^Q)表示输出当前Q值，θ^Q表示Online评价网络的权重，θ^Q′表示Target评价网络的权重，Q′(s|θ^Q′)表示输出的目标Q值；

所述策略网络和评价网络的网络参数更新过程包括：

S1：策略网络根据动作策略选择一个动作a_t，并且让执行器执行该动作，所述执行器为机械臂末端安装的钻孔器：

动作策略是根据当前Online策略网络和随机UO噪声生成的随机过程，从这个随机过程采样获得a_t的值，s_t表示当前的钻孔状态，表示随机噪声函数；

S2：执行器执行动作a_t，返回奖励值r_t和新的状态s_t+1；

S3：策略网络将这个状态转换过程(s_t,a_t,r_t,s_t+1)存储到经验池中，作为训练Online策略网络和Online评价网络的数据集；

S4：从经验池中，随机采样N个数据，作为Online策略网络、Online评价网络的一个Mini-batch训练数据，将Mini-batch中的单个数据用(s_i,a_i,r_i,s_i+1)表示；

S5：计算Online评价网络的梯度：

所述Online评价网络的loss函数为MSE函数：

其中，y_i表示目标Q值：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1∣θ^μ′)∣θ^Q′)

采用标准BP算法求得θ^Q的梯度

S6：采用优化器更新θ^Q；