[发明专利]一种基于卷积神经网络和递归自动编码器模型的场景识别方法有效
申请号: | 201910470014.2 | 申请日: | 2019-05-29 |
公开(公告)号: | CN110188827B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 花福军;陆文斌;张应福;周正斌;李成伟 | 申请(专利权)人: | 创意信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 递归 自动 编码器 模型 场景 识别 方法 | ||
1.一种基于卷积神经网络和递归自动编码器模型的场景识别方法,其特征在于,包括:构建卷积神经网络,构建递归自动编码器,数据预处理和场景预测分类;
所述构建卷积神经网络,是利用大规模场景数据集构建并改进卷积神经深度网络;
所述构建递归自动编码器,是利用卷积神经网络提取的图像特征和场景标签构建并改进递归自动编码器;
所述数据预处理,是将图像进行数据增强的操作,同时将场景的文本标签实现嵌入操作完成数据预处理;数据预处理的过程包括以下子步骤:
S31:对训练集中的图像进行增强处理,包括部分旋转、平移、缩放、边缘填充的操作;
S32:将训练集中的图像对应的场景进行嵌入化处理,其中词典规格为训练集中的词汇总量,每个单词向量的维度是256;同时保证场景单词向量和训练集中的图像一一对应;
S33:对图像全连接层中输出的特征向量进行分割,保证向量维度与单词维度相同,若维度不足,进行补零操作;
所述场景预测分类,构建预测图像场景分类器,将图像特征输入训练完成的模型中进行场景预测分类;所述场景预测分类包括以下子步骤:
S41:初始化标签矩阵,其中多标签情况下,标签的概率总和为1;
S42:将节点递归正向编码,同时计算重构之后的偏差,经过反向传播更新参数集;
S43:充分训练底层网络,底层网络的权重和偏移量固定后,隐藏状态自下而上进行传播,依次训练隐藏层,全面训练编码器;
S44:在隐藏层的递归自动编码器训练过程中,图像场景的文本嵌入式向量,同样作为节点进行编码;
S45:将卷积神经网络提取的图像特征分割输入到自动编码器,经过迭代编码和重构通过Softmax分类器,实现图像场景预测;
所述步骤S45包括以下步骤:
S451:设置自动编码器中场景类别的预测函数,需要满足:
d(yi;θ)=Softmax(Wlabelyi)
其中,Wlabel表示具有监督性质的标签矩阵,在多个标签K的情况下,则有∑d=1;
S452:将标签tk的预测概率进行交叉验证作为损失函数,需要满足:
S453:根据S452设置的自动编码器中损失函数,将提出的模型中的目标函数设置如下:
目标函数的梯度下降算法需要满足:
其中公式中的θ表示参数集{W(1),b(1),W(1)′,b(1)′,Wlabel,L},L表示图像特征表示的特征空间。
2.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法,其特征在于,所述构建卷积神经网络包括以下步骤:
S11:获取公开的场景数据构建大规模场景标注数据集;
S12:将所述数据集处理为固定大小的224*224RGB图像,作为卷积神经网络的输入;
S13:输入图像通过多个卷积层,卷积核大小为3*3,步长为1个像素,填充为1个像素;
S14:空间池化由五个最大池化层进行,步长为2,网络最后是三个全连接层,将最后的全连接层输出向量作为后续的递归自动编码器的部分输入。
3.根据权利要求2所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法,其特征在于,所述卷积神经网络中所有隐藏层采用ReLU作为激活函数。
4.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法,其特征在于,所述构建递归自动编码器包括以下步骤:
S21:特征向量输入:获取卷积神经网络中提取的特征向量,将其分割成若干个512维向量,用于编码器的输入序列;
S22:构建递归自动编码器:对输入序列的二叉树中前两个叶子节点进行重构,然后依次对后续的叶子节点及前一个隐藏节点进行重构,最终完成重构原始序列,隐藏节点满足:
yi=f(W(1)[xi;ci-1]+b(i))
其中,xi表示输入序列节点,ci-1表示节点,其中i=1时,ci-1=x2,i1时,ci-1=yi-1,且i∈[1,m-1],m表示输入序列长度,W表示子节点之间的连接向量,b表示偏移量;
重构过程是将父子节点yi反向重构子节点,真实值和重构过程的差异使用[x′i;c′i-1]=W(1)′yi+b(1)′表示,还原计算过程满足:
S23:优化递归自动编码器:设定A(x)表示输入x的可构建二叉树的全集,T(y)表示树中非叶子节点的索引位置s,模型中的重构误差为:
S24:节点匹配:利用贪心算法,对节点进行两两配对,选取最小误差的组合作为重构对象,在不同的节点具有不同的权重连接,需要满足:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创意信息技术股份有限公司,未经创意信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910470014.2/1.html,转载请声明来源钻瓜专利网。