[发明专利]基于深度强化学习的贴片机贴装调度模型训练方法有效
申请号: | 202111070340.8 | 申请日: | 2021-09-13 |
公开(公告)号: | CN113905606B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 胡成玉;曾德泽;龚文引;邓泽峰 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | H05K13/04 | 分类号: | H05K13/04;H05K13/08 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 吴晓茜 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 贴片机贴装 调度 模型 训练 方法 | ||
1.一种基于深度强化学习的贴片机贴装调度模型训练方法,其特征在于,包括:
S1:设置贴装循环方案,计算获取所述贴装循环方案的贴装时间;
S2:构建贴片机贴装调度模型,所述贴片机贴装调度模型包括:DQN1网络和DQN2网络;
S3:获取贴装训练数据,将所述贴装训练数据和所述贴装时间输入所述DQN1网络进行循环计算,计算结束后获得取料方案;
S4:将所述取料方案和所述贴装时间输入所述DQN2网络进行循环计算,计算结束后获得训练好的贴片机贴装调度模型;
步骤S4具体为:
S41:通过所述取料方案和所述贴装时间对所述DQN2网络进行设置,获得设置好的DQN2网络;
S42:将所述取料方案输入所述设置好的DQN2网络进行循环计算,获得所述训练好的贴片机贴装调度模型;
步骤S41具体为:
S411:设定DQN2网络的状态空间,所述DQN2网络的状态空间的表达式为:
S2=[C2,P2]
其中,C2表示元件在PCB板上的坐标,表达式为:xnc表示元件在PCB板上的x轴坐标,ync表示元件在PCB板上的y轴坐标;nc表示待贴装元件数量,c表示决策次数;
P2表示喂料器运动的环境状态,表达式为:P2=(p′l,p′n),p′l表示上一贴装循环最后一次在喂料器上的取料位置,p′n表示下一贴装循环第一次在喂料器上的取料位置;
S412:设置DQN2网络的动作空间,所述DQN2网络的动作空间的表达式为:
a2={1,2,...,nc}
S413:设置DQN2网络的奖励函数,所述DQN2网络的奖励函数的表达式为:
R2=tg-(trecong+tplace+treturn)
其中,tg代表循环采用贪心算法后的模拟识别用时,模拟贴装运动用时和模拟返回喂料器用时之和;
S414:构建DQN2网络的状态转移概率,具体为:执行所述DQN2网络的动作空间后,对所述DQN2网络的状态空间进行相应调整,之后进入新的循环。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111070340.8/1.html,转载请声明来源钻瓜专利网。