[发明专利]一种基于深度Q学习策略的手写数字识别方法有效
申请号: | 201710381771.3 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107229914B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 乔俊飞;王功明;李文静;韩红桂 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 策略 手写 数字 识别 方法 | ||
1.一种基于深度强化学习策略的手写数字识别方法,其特征在于包括以下步骤:
步骤A:根据深度学习模型分层特征学习的特点,顺序叠加若干个受限玻尔兹曼机(RBM)构造深度信念网络(DBN),并利用DBN对手写数字图像进行分层抽象与关键特征提取;其中,DBN的特征学习是通过逐层训练每个RBM来实现;
步骤B:计算DBN的最后一个RBM隐含层状态与原始输入图像数据的重构误差Re-Error,并设置基于重构误差的特征提取衡量标准;然后所设置的特征提取衡量标准确定最终提取到的特征;
步骤C:将最终确定提取到的关键特征向量F=[f1,f2,…,fl]作为强化学习中Q学习算法的初始状态,手写数字的10种识别结果作为Q学习算法的输出状态,然后进行Q学习算法寻优决策迭代;其中,f1,f2,…,fl分别表示最后一个RBM隐含层中各个神经元的状态值,l是隐含层神经元个数;
步骤D:通过步骤D构造基于Q学习算法的深度信念网络(Q-DBN),Q-DBN通过最大化Q函数值来获取最优策略集从而完成手写数字识别任务,最优策略集获取公式为当连续两次以上的决策行为所得到的识别结果相同时,Q函数的迭代停止,其中,F为提取到的关键特征,S为手写数字的10种识别结果的集合,a为当前时刻的决策行为,Q(F,a)为Q学习算法中的累计奖赏。
2.根据权利要求1所述的基于深度强化学习策略的手写数字识别方法,所述步骤A包括:根据RBM的极大团构造原理,RBM的能量函数定义为
其中,v是可视层状态向量,h是隐含层状态向量,θ={w,bv,bh},w是可视层和隐含层之间的连接权值矩阵,bv和bh分别是可视层和隐含层节点的偏置向量;vi和hj分别是可视层第i个神经元和隐含层第j个神经元的状态值,wij表示可视层第i个神经元与隐含层第j个神经元之间的连接权值,bvi和bhj分别是可视层第i个神经元和隐含层第j个神经元的偏置,m和n分别是可视层神经元和隐含层神经元个数;相应的条件概率为
式中,σ(·)是一个Sigmoid函数,P(hj=1/v;θ)表示在θ和v已知的条件下hj=1的概率,P(vi=1/h;θ)表示在θ和h已知的条件下vi=1的概率;利用能量函数得到RBM的联合分布为
P(v,h)∝e-ε(v,h/θ) (4)
参数更新公式为
其中,τ是RBM的迭代步数,θ(τ)和θ(τ+1)分别是第τ次和第τ+1次迭代后的参数值,r是学习率,其取值范围是0r1。
3.根据权利要求1所述的基于深度强化学习策略的手写数字识别方法,所述步骤B包括:重构误差公式定义为
其中,Ns和Np分别表示训练样本个数和手写数字图像的像素点个数,vij和分别表示图像像素点原始值和重构值;
基于重构误差的特征提取衡量标准如公式(7)所示,根据所设置的特征提取衡量标准确定最终提取到的特征;
Re-Error≤Re-Error0 (7)
即如果重构误差小于或等于所设置的重构误差阈值Re-Error0,那么将提取DBN的最后一个RBM隐含层状态作为最终特征F=[f1,f2,…,fl];否则,继续增加RBM的无监督迭代次数并跳回步骤A;其中,重构误差阈值的取值范围为0.01Re-Error00.05。
4.根据权利要求1所述的基于深度强化学习策略的手写数字识别方法,所述步骤C包括:将最终提取到的特征F=[f1,f2,…,fl]和手写数字的10种识别结果S=[s1=0,s2=1,…,s10=9]分别作为Q学习算法中的初始状态和输出状态,从初始状态到输出状态的决策行为集合为
A=[a1:F=0,a2:F=1,…,a10:F=9] (8)
基于奖励信号的累积Q函数值为
公式(9)表示在一次识别过程中的累积Q函数值;式中,D是手写数字识别的结果个数,d是对D的随机选取,是从当前初始状态F转移到新状态sd的概率,0≤γ1是折扣因子,maxQ(sd,a′)是对Q函数增强信号取最大值;a,a′∈A且a≠a′,a为当前时刻的决策行为,a′为下一时刻的决策行为;g(F,a,sd)是在当前时刻决策行为a的作用下从状态F转移到状态sd时的瞬时奖励信号,表示为
Q函数的迭代更新过程为
Qt+1(F,a)=(1-ηt(F,a))Qt(F,a)+ηt(F,a)(g(F,a,sd)+γmaxQt(sd,a′)) (11)
式中,ηt(F,a)是状态-行为对(F,a)在第t次迭代时的学习步长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710381771.3/1.html,转载请声明来源钻瓜专利网。