[发明专利]一种迭代步长可变的多步Q学习自适应方法有效
申请号: | 201510212647.5 | 申请日: | 2015-04-29 |
公开(公告)号: | CN104794359B | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 贺知明;万海川;高振;杨庆;肖雪冬 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 电子科技大学专利中心51203 | 代理人: | 李明光 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 步长 可变 学习 自适应 算法 | ||
技术领域
本发明属于雷达信号处理领域,提出了一种迭代步长可变的多步Q学习自适应方法。
背景技术
认知雷达是一种能够根据回波信号认识环境状态的雷达。它通过对回波信号的分析,提取出环境信息并动态地改变发射波形,以达到更高的目标分辨力(包括距离、速度等)。而宽带认知雷达则是在认知雷达的基础上采用了更高的带宽发射波形,这样,可以使雷达具有更高的距离分辨力和超近程的探测能力。由于宽带认知雷达的带宽大,数据更新快,这对波形动态变化的速度也有了更高的要求。而提高自适应算法的计算速度则是在提高宽带认知雷达的认知能力,所以研究宽带认知雷达的自适应波形选择算法有着重要的意义。
在众多的自适应算法中有一部分已经成熟的,并被广泛应用的例子,如价值迭代算法、策略迭代算法,Q-Learning算法以及多步Q-Learning算法。传统的Q学习算法采用一步算法,预见能力不强,对环境适应能力不强。针对这种问题,相关研究提出了增量式步长Q学习算法,但这种算法再后来的实际应用中出现了运算复杂度高,更新速度慢的情况。于是,为了平衡预见能力和预算复杂度的问题,有人提出采用有限多步信息进行更新的思想,即多步Q学习算法,它利用K步信息更新当前的Q值,具有多步预见能力,同时能降低算法复杂度。但是,这种算法步长恒定,无法根据环境变化调整步长,如果遇到环境急剧的变化,那么该算法的适应性将变弱。
发明内容
本发明针对背景技术存在的运算量大和预见能力不强的缺点,提出了一种改进的Q学习算法。本发明提出将步长的大小设置为环境的函数,根据环境的变化程度来决定步长的大小,当环境急剧变化的时候,采用更多步的信息来更新当前Q值,提高预见能力;同时,当环境变化很细微时,采用较少步的信息来更新Q值,减少算法复杂度。
本发明所采用技术方案为:一种迭代步长可变的多步Q学习自适应方法,包括以下步骤:
步骤1:初始化所有的(s,u),其中s∈S,u∈A(u),S表示状态集合,s表示集合中一个状态;u为系统选择波形,A(u)为波形集合;令Q(s,u)=0,k=0,k表示迭代次数,设定最大迭代次数Kmax(t),以及更新公式:Kmax(t+1)=μKmax(t),0<μ<2,初始值为1;
步骤2:雷达环境学习,令当前状态为st,雷达发射波形集合中不同的波形,并记录不同波形所产生的Q值,通过比较确定Q值最大的对应波形u,即:Y(ut)=argmaxQk(st,ut);
步骤3:利用更新公式更新Q值:
Qk+1(st,ut)=(1-αk+1)Qk(st,ut)+αk+1[Rt(st+1|st,ut)+λmaxQk(st+1,ut+1)]
其中,st代表t时刻状态,ut代表t时刻发射波形,Rt(st+1|st,ut)为t时刻、环境状态为st、发射波形为ut的情况下状态变换到st+1产生的报酬函数,λ为设定折扣因子;
步骤4:确定下一状态,根据状态转移矩阵A,测量概率矩阵B,确定下一状态st+1:
I为对角矩阵;
步骤5:计算状态变化范数σ=||st+1-st||,设定μ值变动的最低门限值l和μ值变动的最高门限值h;当σ<l时,μ值减0.1,并降低l、使l=0.6l;当σ>h时,μ值加0.1,并提高h、使h=1.2h;否则,μ值不变;
步骤6:k值加1,当k<Kmax(t),根据公式Kmax(t+1)=μKmax(t),更新最大迭代次数;令st=st+1,跳至步骤2;否则,停止迭代,跳至步骤7;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510212647.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于数学模型预测锚杆极限承载力的计算方法
- 下一篇:晶振外壳除尘装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用