[发明专利]一种基于多层分类网络的Q函数自适应学习方法在审
申请号: | 201610930834.1 | 申请日: | 2016-10-31 |
公开(公告)号: | CN106548236A | 公开(公告)日: | 2017-03-29 |
发明(设计)人: | 马耀飞;周亚楠;龚光红;宋晓;吴雨林;翟刚 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 北京永创新实专利事务所11121 | 代理人: | 赵文颖 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多层分类网络的Q函数自适应学习方法,包括以下几个步骤步骤1,多层分类网络训练;步骤2,使用多层分类网络进行工作;本发明通过建立层次化的分类网络,实现了对问题空间的自适应划分。这种划分方式相比于未改进的模糊自适应共振分类网络更加灵活,能够获取更好的Q值拟合函数;本发明通过实施例,表明本发明获取优化行动策略的性能更强。 | ||
搜索关键词: | 一种 基于 多层 分类 网络 函数 自适应 学习方法 | ||
【主权项】:
一种基于多层分类网络的Q函数自适应学习方法,包括以下几个步骤:步骤1,多层分类网络训练;多层分类网络是基于模糊自适应共振网络创建,模糊自适应共振网络包括两层,分别为:输入层F1和输出层F2,两层中的节点通过连线连接,每条连线关联一个权重值;该网络的输入通过如下方式处理,对输入的状态矢量s进行归一化,并按照公式(1)的方式建立s的互补矢量sc,合并s和sc得到扩展的输入矢量I:s=(s1,s2,...,sM),sc=(1-s1,1-s2,...,1-sM)I=(s,sc)---(1)]]>其中,M表示输入的维数;输出层F2包含N个分类节点,代表对状态空间的N个分区;建立层次化网络时,具体的:1)、确定建立子网络的时机采用Q学习中得到的|ΔQ|值判断是否创建子网络,ΔQ表示Q值的变化量,多层分类网络的每个输出节点均关联一个|ΔQ|值,每当任何一个输出节点更新时,都检查该值并通过一个全局计数器u,统计自从上一个最小|ΔQ|值出现后该节点的更新次数,当u超过阈值p时,择对当前输出节点创建子网络;2)、确定需要建立子网络的输出节点,具体的:(1)建立一个初始的模糊自适应共振网络CNet,从该网络开始,逐渐建立多层分类网络,该初始网络中每个分类节点关联两个变量:该节点的Q值、以及Q值变化量|ΔQ|,Q表示在特定状态s下执行某个动作的价值。建立一个全局计数器u,初始值设置为0;(2)将一个状态采样s输入,得到其对应的分类节点c。c代表了模糊自适应共振网络CNet对s的分类。(3)Q学习模块寻找某个行动a,使节点c的Q值即Qc最大,如下式所示:π(s)=argmaxaQc(a),其中π(s)、Qc(s,a)、argmaxa分别表示:●π(s):称为行动策略函数,是一个映射函数,把s映射为行动a,即:π(s)→a;●Qc(a):若输入s被分类为节点c所表示的类别,则Qc(a)表示在s下执行行动a的Q值价值。上标表示与该节点关联;●argmaxa(*):一种参数选择函数,表示通过选择参数a使括号内表达式的取值最大,返回该参数a。(4)执行动作a,行动者获得回报r,并进入新状态s’;(5)将新状态s’输入CNet,确定对应的分类输出节点c’;(6)再次按照步骤(3)的方式,获取s’对应的最优行动a′;(7)统计输出节点c关联Q值的幅度变化记为ΔQc:ΔQc←r+γmaxa′Qc′(a′)‑Qc(a),r、γ、maxa′、Qc′(a′)分别表示:●r:在状态s下执行动作a后观测到的回报值;●γ:称为折扣因子,取值范围为[‑1,1],用于确保ΔQc的值能够收敛;●maxa′(*):求最大值函数。通过选择a′,使括号内的表达式取值最大,并返回该最大值;●Qc′(a′):表示在新状态s’(该状态被归类为c’)下执行动作a′的Q值。(8)更新输出节点c与动作a对应的Q值记为Qc(a):Qc(a)←Qc(a)+αΔQ,α表示学习速率参数,决定了Qc(a)值改变的快慢;(9)统计|ΔQc|的方差计算方法为:将最近n次的|ΔQc|值记录为集合E={ei|e=|ΔQc|,i=1,...,n},有:DErrc=nn-1·[1nAn-(Bnn)2]]]>其中,ei,分别表示;●ei:第i次的|ΔQc|值;●最近n次|ΔQc|值的平方和;●最近n次|ΔQc|值的相加和。(10)把输出节点c曾经出现的最小|ΔQc|记为将该节点当前的|ΔQc|值与比较:若则将全局计数器u零,同时更新若则全局计数器u加1;(11)更新阈值参数的取值:p←max(50,ntotal)其中,ntotal是当前CNet中所有叶节点数量;(12)比较u与p的值;如果u>p,则认为当前是创建子网络的合理时机,首先将全局计数器u清零,按照以下方式确定要创建子网络的节点:c*←argmaxcDErrc]]>c*、argmaxc(*)分别表示:●c*:需要创建子网络的节点;●即第(9)步中计算的|ΔQc|的方差;●argmaxc(*):参数选择函数,表示通过选择参数c使括号内表达式的取值最大,返回该参数c。确定节点后,为该节点创建一个模糊自适应共振子网络,并关联到该节点上;(13)重复(2)‑(12),直到到达指定时间;步骤2,使用多层分类网络进行工作;训练完成后,对于任意输入状态s,将输出对应的最优行动a,当外部状态持续输入时,生成的行动序列形成了最优行动策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610930834.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种液体燃料锅炉的监测系统
- 下一篇:燃烧装置及其火焰感应组件