[发明专利]一种基于增强型栈式自动编码器的自动图像标注方法有效

申请号：	201610035975.7	申请日：	2016-01-20
公开（公告）号：	CN105678340B	公开（公告）日：	2018-12-25
发明（设计）人：	柯逍;周铭柯;杜明智	申请（专利权）人：	福州大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于增强型栈式自动编码器的自动图像标注方法：针对深度学习中传统SAE模型难以有效训练有偏数据集的问题，提出一种提升低频标签准确率的平衡栈式自动编码器，较好地改善低频标签的标注效果。然后针对单个B‑SAE模型不稳定导致标注效果易随参数改变而发生较大变化的问题，提出一种针对图像标注任务的增强平衡栈式自动编码器，通过分组按序训练、加权累加各组最优B‑SAE子模型，取得稳定的标注结果。该方法通过逐层预训练权值并用后向传播算法整体调优，改善了传统浅层模型泛化能力弱、难以收敛到最佳极值点等问题，并在训练过程中加强弱标签样本的训练，提升了整个模型的标注效果，该方法简单灵活，具有较强的实用性。
搜索关键词：	一种基于增强型栈式自动编码器图像标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于增强型栈式自动编码器的自动图像标注方法，其特征在于，按照如下步骤实现：步骤S1：构建栈式自动编码器模型，在所述栈式自动编码器模型上判别弱标签样本，并添加噪声以增加所述弱标签样本的训练次数，进而构建平衡栈式自动编码器模型；步骤S2：通过所述平衡栈式自动编码器模型对训练图像分组训练子平衡栈式自动编码器模型，加权累加各组最优子模型得到增强平衡栈式自动编码器模型；步骤S3：将未知图像输入到所述增强平衡栈式自动编码器模型并输出标注结果；在所述步骤S1中，还包括如下步骤：步骤S11：定义编码器f_θ和解码器g_θ'；所述编码器f_θ将输入图像x转换为隐层表达h，解码器g_θ'将所述隐层表达h重构为与所述输入图像x维度一致的向量x'；其中，f_θ(x)＝σ(W·x+b)，θ＝{W,b}，W为网络权重，满足W'＝W^T，b为偏置向量，为激活函数；θ'＝{W',b'}；步骤S12：学习一个函数使输出x'＝g_θ'(f_θ(x))和所述输入图像x近似，且定义损失函数为L(x,x')＝(x‑x')²，并通过最小化损失函数进行学习：步骤S13：记用于图像标注的SAE模型有L层，并用序号l∈{1,...,L}表示；用hl表示第l层的输出向量，Wl和bl表示第l层的网络权重和偏置，通过自动编码器对{Wl,bl}，l∈{1,...,L}逐层预训练；步骤S14：执行前馈过程并用后向传播算法调优；所述栈式自动编码器模型的前馈操作表述为：h^l+1＝σ(W^l+1h^l+b^l+1)，l∈{0,...,L‑1}；所述栈式自动编码器模型的后向传播算法调优表述为：其中，是多个自动编码器模型的合成函数，而θ_l为参数{W^l,b^l}，l∈{1,...,L}，损失函数为L(x,y)＝(x‑y)²；步骤S15：定义约束变量，令向量C＝(c₁,c₂,...,c_M)，表示关键词y_i在训练集P中出现的次数，表示关键词的平均出现次数；向量C＝(c₁,c₂,...,c_M)表示第i幅图像x_i的每个关键词Y_i^j，j∈{1,2,...,M}在训练集中出现的次数Y_C,i＝C*Y_i；从而得到在图像x_i中出现次数最低的关键词为步骤S16：定义Φ(x)函数，所述栈式自动编码器模型在训练过程中对训练样本进行判断，若输入图像x包含低频标签的个数多于k个，则对该输入图像x添加适当的噪声；定义Γ(x)函数，对输入图像x增加训练强度，若该输入图像x所包含标签的出现次数低于预设阈值，则增加训练次数，其中，函数Γ(x)为：其中，α和β为常系数，β用于确定需要加重训练的样本，α用于控制需要加重训练的样本的训练强度；函数Φ(x)为：其中，χ为常系数，用于控制噪声添加的强度，d为图像x_i特征的维度，表示图像x_i第j个维度的值，Ran(·)为随机数函数；步骤S17：调整优化等式得到平衡栈式自动编码器模型模型；将调整为将调整为当模型训练好后，所述平衡栈式自动编码器模型的最后一层的输出即为预测图像的关键词的预测分布D；在所述步骤S2中，还包括如下步骤：步骤S21：分组训练子平衡栈式自动编码器模型模型，将平衡栈式自动编码器模型模型按不同的加噪方式划分不同的组，每一组内根据不同的隐层神经元个数划分子模型t表示平衡栈式自动编码器模型模型采用第t种加噪方式，k表示第k个子B‑SAE模型设置的隐层神经元个数；步骤S22：设置初始权值并计算子平衡栈式自动编码器模型模型模型分类误差率，对训练数据设置权值如下：计算的分类误差率：其中，表示：假设图像x_i的真实标签集Y_i包含c个关键词，并通过模型预测得到标签集Y_i^*的个数也为c个，如果Y_i＝Y_i^*，则为false，否则为true；步骤S23：计算平衡栈式自动编码器模型模型权重，并更新训练数据权值；根据组内所有子模型的分类误差率，可以得到该组分类误差率最低的模型B‑SAE^t以及对应的分类误差率e^t，计算B‑SAE^t的权重：当第t组的模型训练完后，更新训练数据的权值，以获得下一组模型的权重，更新训练数据权值的方式如下：步骤S24：加权累加子平衡栈式自动编码器模型模型得到增强平衡栈式自动编码器模型，当所有组都训练完后，即得到关键词预测分布：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610035975.7/，转载请声明来源钻瓜专利网。

上一篇：一种基于Gabor小波分析的羊毛羊绒识别算法
下一篇：确定字符倾斜角度的方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于增强型栈式自动编码器的自动图像标注方法有效

专利文献下载