[发明专利]基于Q-learning强化学习的芯片封装测试生产线性能控制方法有效
申请号: | 202010797879.2 | 申请日: | 2020-08-10 |
公开(公告)号: | CN111857081B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 李波;冯益铭;钱鑫森 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G05B19/418 | 分类号: | G05B19/418 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 闫树平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 learning 强化 学习 芯片 封装 测试 生产线 性能 控制 方法 | ||
1.基于Q-learning强化学习的芯片封装测试生产线性能控制方法,包括以下步骤:
步骤1:构建半导体芯片封装测试串并联生产线抽象模型;
步骤2:基于步骤1构建的生产线抽象模型,建立半导体芯片封装测试串并联生产线性能的预测模型;
步骤3:基于步骤1构建的生产线抽象模型,根据Morris筛选法定性分析与Arena仿真定量分析,得到关键变动性因素对生产线性能的影响机制;
步骤4:基于步骤2建立的预测模型和步骤3所得关键变动性分析,建立基于Q-learning强化学习算法的性能控制模型,以生产线效益指标最优为性能控制目标进行迭代求解,得到全局的最优性能控制策略;
所述步骤1具体为:以半导体生产制造产线后道工序,即芯片封装测试生产线作为研究对象,假设工站间存在有限缓冲区,排队规则为先来先服务,将其抽象为包含重入的多工站串并联排队生产线模型;
所述步骤2具体为:
步骤2.1:变动性计算:计算到达变动性ca和加工时间变动性ce;
步骤2.2:确定性能预测基本指标;
由工件在队列处的平均加工时间CTq和有效加工时间te得到驻留于工站的平均时间CT,即生产周期;进一步计算得到工站处平均在制品水平WIP,将工件生产速率TH、生产周期CT、在制品水平WIP作为生产线性能预测基本指标;
CT=CTq+te
WIP=CT×TH
步骤2.3:建立生产线性能预测模型;
步骤2.3.1:计算产品j在工站i的排队时间:
其中caij、ceij分别为产品j在工站i的到达变动性和加工时间变动性,uij为工站i的利用率,mij为工站i并联设备数量,teij为产品j在工站i的有效加工时间;
步骤2.3.2:计算工件生产速率TH;
设工站i中有mij台并联设备,b为工站i前缓冲区容量大小,k为工站i正在加工工件数,bm1;若有0≤k≤b,工站i前无等待的工件j加工时的概率p0为,其中0<j<r,r表示生产线中一共加工的产品数量:
工件j在缓存区容量大小为b的阻塞概率为:
设qhj为工件j在工站h上的不良品率,Qij为工站i监测到的不良品率,其取值范围为0<h<i≤s,其中s表示该串并联生产线中工站数量,则在工站i上检测并移除的工件j的不良品概率Qij为:
表示生产线中所有带有不良品检测工站编号的集合;
则工件j在工站i的生产速率THij为:
当某工站利用率为最大时,记工站I为产品J的瓶颈工站,生产速率记为rbIJ=max(uij);
步骤2.3.3:计算生产线的生产周期CTj和在制品水平WIPj;
计算工件平均等待成批时间WTBT:
其中ra代表工件到达工站的速率,其中kij表示工站i的产品j加工批量大小,此时则改写CTqij计算公式:
计算产品j在工站i的生产周期CTj和在制品水平WIPj:
从而得到产品j在整条串并联生产线的生产周期CTj和在制品水平WIPj:
步骤2.4:对生产线性能预测模型性能进行评估;
步骤2.4.1:计算生产线性能指标F;
以生产线最佳情形、最差情形和实际最差情形下的WIP-CT和WIP-TH曲线作为标杆划定了性能象限中的优区和劣区,构成生产线的性能评估图;
将实际性能点的距离除以最佳情形与实际最差情形标杆之间距离的比值作为性能评估指标,记为F:
其中w代表给定实际在制品水平,t代表实际生产周期,T0表示生产线的理论加工时间,此处T0=CT;rb代表生产线的瓶颈速率,此处rb=THij,当且仅当uij=umax;
步骤2.4.2:计算生产线效益指标Bf;
考察生产成本,将生产线性能指标F改写为效益指标Bf:
Bf=C*F
其中C为成本因子,c1为单位设备成本,c2为单位缓冲区容量成本,c3为其余固定成本,m1和b1分别为当前并联设备数量和缓冲区容量大小,m0和b0分别为初始并联设备数量和缓冲区容量大小;
所述步骤3具体为:
步骤3.1:Morris筛选法灵敏度定性分析;
选取生产线性能预测模型中的随机参数x,预先设定固定步长C和最大变幅M,以步长C对参数x进行扰动变化,将性能评估指标F的平均变化率作为灵敏度系数S:
其中,Y0为参数x初始值对应的性能评估指标F;Yg、Yg+1为第g次和第g+1次参数xg扰动变化后的性能评估指标F;Pg、Pg+1分别为第g次、第g+1次参数扰动变化后其值相对于初始值的变化率,n为运算次数;
根据灵敏度分级标准,将较灵敏和高灵敏度系数的参数确定为对半导体封装测试生产线性能影响较大的因素;依据灵敏度系数绝对值灵敏度分级标准有:0.00≤|S|<0.05为不灵敏,0.05≤|S|<0.20为中等灵敏,0.20≤|S|<1.00为较灵敏,|S|≥1.00为高灵敏;
步骤3.2:Arena仿真灵敏度定量分析;
在Arena软件中建立半导体芯片封装测试串并联生产线模型,每台设备具有独立的随机加工时间,失效时间和维修时间;
令生产线上的工件到达速率、工站设备加工速率、平均失效前时间mf、平均修复时间mp分别服从负指数分布和正态分布,加工批量大小k、缓冲区容量大小b和并联设备数量m均为固定的正整数,且有b>m>1,并设置仿真实验预热时间设置、运行总时间和实验重复次数;
实验得到生产线总体性能、生产周期CT、生产速率TH和在制品水平WIP关于影响生产线性能的关键因素的变化曲线;
所述步骤4具体为:
步骤4.1:以生产线性能预测模型作为强化学习外界环境,生产线变动性的变化为触发条件,基于事件触发策略与周期触发策略相结合的动态控制方法,建立基于强化学习的半导体芯片封装测试生产线性能控制模型;
步骤4.2:初始化A(s,a),a∈A(s),其中A值是对长期报酬的反映,S为系统状态集,A(s)为步骤4.2所得关键因素的动作策略集;给定参数学习率因子α和折扣因子γ,确定回报函数r;
步骤4.3:给定起始状态s,并根据ε-贪婪策略在状态s选择动作a;改进ε的取值方式,设为函数:其中p为算法当前执行部署步数,M为算法总迭代步数;
步骤4.4:根据e贪婪策略在状态s选择动作a,b为a的选择序号,得到回报r和下一个状态snexts,anext代表下一个动作,更新Q值:
s=snext,a=anext
步骤4.5:转向步骤4.4,直到系统趋向稳定状态,也就是收敛状态;
步骤4.6:重复执行步骤4.2到步骤4.5,直到学习周期即算法预先设置的步骤4.2到步骤4.5重复执行次数结束则停止迭代;
步骤4.7:输出最终策略并得到生产线性能的指标优化情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010797879.2/1.html,转载请声明来源钻瓜专利网。