[发明专利]一种基于多尺度分层残差网络的图像多字幕自动生成方法有效

申请号：	201710896059.7	申请日：	2017-09-28
公开（公告）号：	CN107844743B	公开（公告）日：	2020-04-28
发明（设计）人：	田彦;王勋;黄刚	申请（专利权）人：	浙江工商大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08
代理公司：	杭州天勤知识产权代理有限公司 33224	代理人：	胡红娟
地址：	310018 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于尺度分层网络图像多字自动生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多尺度分层残差网络的图像多字幕自动生成方法，包括以下步骤：

(1)设计多字幕生成模型：所述多字幕生成模型包括用于图像特征图提取与目标检测的卷积神经网络检测模型、用于字幕预测的循环神经网络预测模型复合而成；

在所述卷积神经网络检测模型中，将卷积神经网络中的残差块修改为密集连接聚合残差块；

在所述循环神经网络预测模型中，将循环神经网络的相邻两层之间提供一个梯度传播捷径；所述卷积神经网络检测模型包括设于残差块后的漏斗结构；当图像分辨率降到最低后网络开始上采样，融合不同尺度的特征，上采样方式为元素级相加，得到的不同尺度特征图用来获取多尺度候选框，漏斗的拓扑结构是对称的；

所述多字幕生成模型的损失函数L定义为：

L＝L_det+αL_bbox+βL_cap

其中，L_det、L_bbox和L_cap分别为检测损失、边框定位损失、标题预测损失，α和β是影响因子；

(2)生成多字幕：利用合格的训练样本对所述多字幕生成模型进行训练，得到训练好的多字幕生成模型，测试时候给定待生成字幕图像，将训练好的多字幕生成模型执行前向传递，得到多字幕生成结果；

所述密集连接聚合残差块为：

将卷积神经网络的残差块中的依次连接的3层基础卷积层Conv¹、Conv²、Conv³分别划分成n个并行的小基础卷积层Conv¹_i、Conv²_i、Conv³_i，并以序号相同的小基础卷积层Conv¹_i、Conv²_i、Conv³_i依次连接形成残差小块，n个残差小块并联融合成聚合残差块，i＝1,2,3,……,n，且聚合残差块的连接顺序为归一化层-激活层-卷积层；