[发明专利]确定模拟电路参数的处理方法、装置、设备及存储介质在审
申请号: | 202110208888.8 | 申请日: | 2021-02-26 |
公开(公告)号: | CN113158608A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 叶乐;黄舒婷 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F30/373 | 分类号: | G06F30/373;G06N3/02;G06N3/08 |
代理公司: | 北京致科知识产权代理有限公司 11672 | 代理人: | 李洪娟;魏红雅 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 模拟 电路 参数 处理 方法 装置 设备 存储 介质 | ||
1.一种确定模拟电路参数的处理方法,其特征在于,包括:
获取目标模拟电路对应的目标指标;
根据所述目标指标,采用预先训练好的目标神经网络模型,确定所述目标模拟电路对应的目标设计参数,所述目标神经网络模型是基于强化学习的模型。
2.根据权利要求1所述的方法,其特征在于,在根据所述目标指标,采用预先训练好的目标神经网络模型,确定所述目标模拟电路对应的目标设计参数之前,所述方法还包括:
对预先建立的神经网络进行初始化,清空经验回放池,并随机生成初始状态值,所述神经网络包括Actor当前网络、Critic当前网络、Actor目标网络和Critic目标网络;
基于所述初始状态值及初始化后的神经网络,采用深度确定性策略梯度算法进行步数迭代训练,获得第一神经网络模型;
将所述第一神经网络模型作为所述目标神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述对预先建立的神经网络进行初始化,包括:
采用预设随机函数初始化Actor当前网络的参数θ和Critic当前网络的参数ω,令Actor目标网络的参数θtarget等于θ,Critic目标网络的参数ωtarget等于ω;
基于所述初始状态值及初始化后的神经网络,采用深度确定性策略梯度算法进行步数迭代训练,获得第一神经网络模型,包括:
针对第t步,执行以下步骤:
将当前t时刻状态值st输入Actor当前网络,获得预测的t时刻最优动作值at,所述初始状态值作为t=1时刻状态值;
将t时刻最优动作值at作为目标模拟电路的参数值进行仿真,获得t+1时刻状态值st+1;
基于t+1时刻状态值st+1及预设奖励函数确定t时刻最优动作值at对应的即刻奖励值rt;
基于即刻奖励值rt确定终止状态值is_endt;
将五元组(st,at,rt,st+1,is_endt)存入到经验回放池;
从所述经验回放池随机采样N个五元组(sj,aj,rj,sj+1,is_endj),j=1,2,…,N;
基于预设L损失函数将Critic当前网络的参数ω更新为ω′,并基于预设J损失函数将Actor当前网络的参数θ更新为θ′,获得更新后的Critic当前网络和更新后的Actor当前网络;
基于θ′对Actor目标网络的参数θtarget进行软更新,并基于ω′对Critic目标网络的参数ωtarget进行软更新,获得更新后的Actor目标网络和更新后的Critic目标网络;
根据预设条件判断是否结束迭代,若否,则进入t+1步,若是,则结束迭代,获得所述第一神经网络模型。
4.根据权利要求3所述的方法,其特征在于,所述基于t+1时刻状态值st+1及预设奖励函数确定t时刻最优动作值at对应的即刻奖励值rt,包括:
基于t+1时刻状态值st+1及外在奖励函数,确定外在奖励值rtw;
基于t+1时刻状态值st+1、t时刻最优动作值at、t时刻状态值st及内在奖励函数,确定内在奖励值rtn;
基于所述外在奖励值rtw和所述内在奖励值rtn确定所述即刻奖励值rt。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110208888.8/1.html,转载请声明来源钻瓜专利网。