[发明专利]一种支持增量更新的深度卷积计算模型在审
申请号: | 201711418936.6 | 申请日: | 2017-12-25 |
公开(公告)号: | CN108009635A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 陈志奎;高静;张清辰;李朋;孙铭阳 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于大数据实时处理技术领域,公开了一种支持增量更新的深度卷积计算模型,包括如下步骤:通过堆叠张量卷积层、抽样层以及全链接层构建深度卷积计算模型,通过高阶反向传播算法对模型参数进行训练。在不改变模型连接结构的前提下,根据新增数据的特征,通过设计参数更新算法将模型的张量全连接层参数由θ更新为θ+Δθ,使得更新后的参数能够学习新增相似数据的特征;通过设计结构更新算法不断增加网络计算单元方式来更新模型结构迁移历时知识,实现对高速动态变化的数据特征提取。本发明针对大数据的实时性特点,设计支持增量更新的深度卷积计算模型,能够高效地提取大数据的特征。 | ||
搜索关键词: | 一种 支持 增量 更新 深度 卷积 计算 模型 | ||
【主权项】:
1.一种支持增量更新的深度卷积计算模型,通过堆叠张量卷积层、抽样层以及全链接层构建深度卷积计算模型,通过高阶反向传播算法对深度卷积计算模型参数进行训练,包括参数更新和结构更新,其特征在于,具体步骤如下:(1)参数更新:在不改变模型连接结构的前提下,根据新增数据的特征,通过设计参数更新算法探索模型中空闲网络,使张量全连接层参数由θ更新为θ+Δθ,使得更新后的参数能学习新增数据的特征;首先,为了快速实现模型收敛,计算参数初始化增量使参数进一步收敛于终值;其次,强化训练使全连接层空闲网络结构捕获新增数据中的知识;最终,微调训练将新增数据中的知识融合到历史知识;1)计算参数初始化增量:通过高阶前向传播算法计算深度卷积计算模型输出值 深度卷积计算模型的输出值与输入数据y的差值Δy;通过高阶反向传播算法计算深度卷积计算模型输出值 对全连接层参数θ={W,b}的偏导数 当输入数据为N阶张量时,b和W分别由N阶张量和N+1阶张量表示;计算全连接层参数增量Δθ,为了快速求出全连接层参数增量Δθ,将深度卷积计算模型的参数展开成其对应的向量形式,在向量空间计算参数的增量;对于给定的新增数据X,为了获得深度卷积计算模型的适应性,定义基于权重的适应性误差函数Jadaption 如公式(1)所示: J a d a p t i o n = 1 2 Δy n e w T ΩΔy n e w - - - ( 1 ) ]]> 其中,Ω是权重矩阵,取值为 表示模型参数由θ更新为θ+Δθ后的重构误差;θ表示模型的原始参数,Δθ表示参数θ的增量,u表示学习效率;y表示输入数据;T表示转置;为了度量参数更新后模型的保持性,定义参数更新误差函数Jpreservation 如公式(2)所示: J p r e s e r v a t i o n = 1 2 μ Δθ T Δ θ - - - ( 2 ) ]]> 为了兼顾参数更新的适应性与保持性,定义代价函数J(x,θ+Δθ)如公式(3)所示:J(x,θ+Δθ)=Jadaption +Jpreservation (3)其中,μ表示学习率;参数增量计算方法通过最小化代价函数J(x,θ+Δθ)求解模型参数的增量Δθ;本方法采用公式(3)的近似解,首先利用泰勒定理对 展开: 由于Δθ很小,因此将 进行一阶近似为: 进一步得: 因此,代价函数J(x,θ+Δθ)近似为: 代价函数J(x,θ+Δθ)对Δθ求导,令导数等于0,求得Δθ的近似计算公式如下: 方程(8)的近似解为: Δθ的这个近似解求出来后将其转换成对应的张量形式;2)增量训练:通过dropout方法生成控制张量,执行增量训练算法,着重更新权重较小节点组成的子网的参数,使全链接网络组合学习新数据中特征;对于给定网络,当输入数据为N阶张量时,W由N+1阶张量表示,为(N-1)阶子权重张量的集合,为了模型的适应性和保持性,定义了(N-1)阶子权重张量的模: | | w | | = w ⊗ w = Σ i 1 = 1 I 1 ... Σ i n - 1 I N - 1 w i 1 i 2 ... i N - 1 2 - - - ( 10 ) ]]> 其中,w表示(N-1)阶子权重张量,||w||表示(N-1)阶子权重张量的模;i表示索引下标;I表示张量阶;n表示张量的阶数;然后,使用权重张量的模,依据半径为R1 和R2 球面将权重空间划分为三部分:WA :0<||w||<R1 (11)WB :R1 ≤||w||<R2 WC :||w||≥R2 为每一个权重空间中的计算节点分配一个概率开关,从而随机控制每个权重点在前向传播和反向传播过程中出现几率,如下:w∈WA ~Bernouli(pA ) (12)w∈WB ~Bernouli(pB ),pA >pC >pB w∈WC ~Bernouli(pC )这样使得空闲节点组成的网络在新数据中得到充分训练,从而学习新的特征,增强dropout前向传播过程如下:2.1)根据公式(12)为每个全连接层生成由0与1组成的开关张量M,控制在每次训练过程中组成训练网络的节点;2.2)由初始参数增量更新网络参数: W p o s t = W + Δ W ⊗ M - - - ( 13 ) ]]> 其中,ΔW表示W的增量; 表示张量与向量的元素乘积;2.3)计算全连接层的输出: O = f ( W p o s t Θ X ⊗ M + b ) - - - ( 14 ) ]]> 其中, 和 分别表示张量间的元素乘积和张量间的多点乘积;3)融合训练:通过对全部数据集随机抽样生成训练子集,然后在子集上对无dropout的模型执行高阶反向传播算法,更新网络全连接层参数,将新旧知识融合;增强的dropout反向传播过程如下:3.1)计算输出层中每个计算单元的Δδl 如下: δ ( l ) = ∂ J D C C M ∂ z ( l ) = ∂ ∂ z ( l ) 1 2 ( a ( l ) - y ( l ) ) 2 = ( a ( l ) - y ( l ) ) ⊗ f ` ( z ( 1 ) ) - - - ( 15 ) ]]> 其中,δl 表示输出层传播损失;a(l) 表示网络的输出值;y(l) 表示实例标签;z(l) 表示网络第l-1层加权激活值和;f`(z(l) )表示非线性函数导数;JDCCM 表示网络的总体代价函数;3.2)计算其他全连接层计算单元的Δδl 如下: 其中,δl表示第l层的传播损失;Wl 表示第l层权重;f`(z(l) )表示非线性函数导数;3.3)计算每层权重和偏执的更新值如下: ΔW l = M l ⊗ A Θ δ E ( l + 1 ) , Δb l = δ ( l + 1 ) - - - ( 17 ) ]]> 其中,A表示本层激活值张量;Ml 表示第l层开关张量; 表示扩张后与本层激活值相同阶数与维数的损失张量;Δbl 表示第l层偏置张量;(2)结构更新:通过设计结构更新算法不断增加计算网络单元方式来更新模型结构迁移历时知识,实现对高速动态变化的数据特征提取;首先,设计张量卷积层、抽样层以及全连接层结构更新规则迁移历史知识;其次,通过在全连接层引入dropout策略提高模型的鲁棒性和精确率;最终,微调训练将新知识融合到历史知识;1)更新模型结构:根据需求更新深度卷积计算模型的卷积层、抽样层以及全连接层的参数 结构,对网络参数进行初始化,原始参数保持不变,新增节点初始化为服从正太分布的接近0值的小数,虚拟节点参数保持0;2)增量训练:利用dropout方法在全连接层生成控制矩阵,在新增数据上利用前向传播计算dropout模型的隐藏层神经元输出值与模型输出值 计算模型输出值 与输入数据Y的误差函数 利用高阶反向传播算法计算误差函数 对模型参数 的偏导数,更新dropout网络的参数,直至收敛;3)融合训练:通过对全部数据集随机抽样生成训练子集,然后在子集上对标准dropout模型执行高阶反向传播算法,更新网络抽样层、卷积层以及全连接层参数,将新旧知识融合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711418936.6/,转载请声明来源钻瓜专利网。