[发明专利]一种基于深度Q学习策略的手写数字识别方法有效

申请号：	201710381771.3	申请日：	2017-05-26
公开（公告）号：	CN107229914B	公开（公告）日：	2020-07-03
发明（设计）人：	乔俊飞;王功明;李文静;韩红桂	申请（专利权）人：	北京工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习策略手写数字识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习策略的手写数字识别方法，其特征在于包括以下步骤：

步骤A：根据深度学习模型分层特征学习的特点，顺序叠加若干个受限玻尔兹曼机(RBM)构造深度信念网络(DBN)，并利用DBN对手写数字图像进行分层抽象与关键特征提取；其中，DBN的特征学习是通过逐层训练每个RBM来实现；

步骤B：计算DBN的最后一个RBM隐含层状态与原始输入图像数据的重构误差Re-Error，并设置基于重构误差的特征提取衡量标准；然后所设置的特征提取衡量标准确定最终提取到的特征；

步骤C：将最终确定提取到的关键特征向量F＝[f₁,f₂,…,f_l]作为强化学习中Q学习算法的初始状态，手写数字的10种识别结果作为Q学习算法的输出状态，然后进行Q学习算法寻优决策迭代；其中，f₁,f₂,…,f_l分别表示最后一个RBM隐含层中各个神经元的状态值，l是隐含层神经元个数；

步骤D：通过步骤D构造基于Q学习算法的深度信念网络(Q-DBN),Q-DBN通过最大化Q函数值来获取最优策略集从而完成手写数字识别任务，最优策略集获取公式为当连续两次以上的决策行为所得到的识别结果相同时，Q函数的迭代停止，其中，F为提取到的关键特征，S为手写数字的10种识别结果的集合，a为当前时刻的决策行为，Q(F,a)为Q学习算法中的累计奖赏。

2.根据权利要求1所述的基于深度强化学习策略的手写数字识别方法，所述步骤A包括：根据RBM的极大团构造原理，RBM的能量函数定义为

其中,v是可视层状态向量，h是隐含层状态向量，θ＝{w,b_v,b_h}，w是可视层和隐含层之间的连接权值矩阵，b_v和b_h分别是可视层和隐含层节点的偏置向量；v_i和h_j分别是可视层第i个神经元和隐含层第j个神经元的状态值，w_ij表示可视层第i个神经元与隐含层第j个神经元之间的连接权值，b_vi和b_hj分别是可视层第i个神经元和隐含层第j个神经元的偏置，m和n分别是可视层神经元和隐含层神经元个数；相应的条件概率为

式中，σ(·)是一个Sigmoid函数，P(h_j＝1/v；θ)表示在θ和v已知的条件下h_j＝1的概率，P(v_i＝1/h；θ)表示在θ和h已知的条件下v_i＝1的概率；利用能量函数得到RBM的联合分布为

P(v,h)∝e^-ε(v,h/θ) (4)

参数更新公式为

其中，τ是RBM的迭代步数，θ^(τ)和θ^(τ+1)分别是第τ次和第τ+1次迭代后的参数值，r是学习率，其取值范围是0r1。

3.根据权利要求1所述的基于深度强化学习策略的手写数字识别方法，所述步骤B包括：重构误差公式定义为

其中，N_s和N_p分别表示训练样本个数和手写数字图像的像素点个数，v_ij和分别表示图像像素点原始值和重构值；

基于重构误差的特征提取衡量标准如公式(7)所示，根据所设置的特征提取衡量标准确定最终提取到的特征;

Re-Error≤Re-Error₀ (7)

即如果重构误差小于或等于所设置的重构误差阈值Re-Error₀，那么将提取DBN的最后一个RBM隐含层状态作为最终特征F＝[f₁,f₂,…,f_l]；否则，继续增加RBM的无监督迭代次数并跳回步骤A；其中，重构误差阈值的取值范围为0.01Re-Error₀0.05。

4.根据权利要求1所述的基于深度强化学习策略的手写数字识别方法，所述步骤C包括：将最终提取到的特征F＝[f₁,f₂,…,f_l]和手写数字的10种识别结果S＝[s₁＝0,s₂＝1,…,s₁₀＝9]分别作为Q学习算法中的初始状态和输出状态，从初始状态到输出状态的决策行为集合为

A＝[a₁:F＝0,a₂:F＝1,…,a₁₀:F＝9] (8)

基于奖励信号的累积Q函数值为

公式(9)表示在一次识别过程中的累积Q函数值；式中，D是手写数字识别的结果个数，d是对D的随机选取，是从当前初始状态F转移到新状态s_d的概率，0≤γ1是折扣因子，maxQ(s_d,a′)是对Q函数增强信号取最大值；a,a′∈A且a≠a′，a为当前时刻的决策行为，a′为下一时刻的决策行为；g(F,a,s_d)是在当前时刻决策行为a的作用下从状态F转移到状态s_d时的瞬时奖励信号，表示为

Q函数的迭代更新过程为

Q_t+1(F,a)＝(1-η_t(F,a))Q_t(F,a)+η_t(F,a)(g(F,a,s_d)+γmaxQ_t(s_d,a′)) (11)

式中，η_t(F,a)是状态-行为对(F,a)在第t次迭代时的学习步长。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710381771.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种直流输电线路可听噪声概率预测方法及系统
下一篇：一种移动终端开机性能评估方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度Q学习策略的手写数字识别方法有效

专利文献下载