[发明专利]一种基于多尺度分层残差网络的图像多字幕自动生成方法有效
申请号: | 201710896059.7 | 申请日: | 2017-09-28 |
公开(公告)号: | CN107844743B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 田彦;王勋;黄刚 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 分层 网络 图像 多字 自动 生成 方法 | ||
本发明公开了一种基于多尺度分层残差网络的图像多字幕自动生成方法,该方法应用了改进的漏斗网络捕捉多尺度目标信息。首先在构建漏斗框架网络时提出了一种密集连接聚合残差块,为了解决梯度消失和梯度爆炸问题,进一步提出了残差LSTM。该方法取得了较高的实验性能,在多字幕获取任务上有明显优势。
技术领域
本发明涉及多字幕获取技术,具体涉及一种基于多尺度分层残差网络的图像多字幕自动生成方法。
背景技术
多字幕获取就是获得一幅图像中非固定数量的类别目标描述语。这项工作是很多重要应用的基础服务,例如语义图像搜索、聊天机器人的视觉智能、社交媒体分享的图像和视频、帮助人们感知周围世界等等。
目前的研究结合了卷积神经网络和循环神经网络从图像特征图上预测字幕。但是在完善性能上遇到了一些瓶颈:1)目标检测在计算机视觉上仍然是开放性的问题;2)从图像特征空间到描述空间是一个非线性的多模态的映射;3)更深的网络更容易学习这种非线性映射关系,但是更深的网络容易引起梯度消失或者梯度爆炸问题。
最近残差学习网络及其扩展网络在非线性和多模型分类问题上表现突出,主要是因为它通过残差层解决了梯度消失的问题,进而利用加深的网络提升了准确度。尽管残差学习网络在分类任务中进行了很多的探索,但是其在多字幕获取这样的序列预测任务上仍存在限制。
目前的多字幕获取方法大致可以分为几类:
基于检索的方法:基于检索的方法利用卷积神经网络提取目标特征,然后评估图像特征和对应的描述词来预测图像字幕。
基于序列的方法:基于序列的方法通过卷积神经网络和循环神经网络推导出对时间序列的描述。
基于检测的方法:虽然基于序列的方法在字幕获取任务上实现了很高的准确度,但是它往往容易忽略图像上的细节,因此提出了基于检测的方法来解决这类问题。首先通过基于卷积神经网络的检测器获得图像上存在的目标,然后集合语言模型给出合适的描述语。
发明内容
本发明提供了一种基于多尺度分层残差网络的图像多字幕自动生成方法,该方法能够有效提高字幕获取的准确率。
本发明实施方式提供了一种基于多尺度分层残差网络的图像多字幕自动生成方法,包括以下步骤:
(1)设计多字幕生成模型:所述多字幕生成模型包括用于图像特征图提取与目标检测的卷积神经网络检测模型、用于字幕预测的循环神经网络预测模型复合而成;
在所述卷积神经网络检测模型中,将卷积神经网络中的残差块修改为密集连接聚合残差块;
在所述循环神经网络预测模型中,将循环神经网络的相邻两层之间提供一个梯度传播捷径;
所述多字幕生成模型的损失函数L定义为:
L=Ldet+αLbbox+βLcap
其中,Ldet、Lbbox和Lcap分别为检测损失、边框定位损失、标题预测损失,α和β是影响因子;
(2)生成多字幕:利用合格的训练样本对所述多字幕生成模型进行训练,得到训练好的多字幕生成模型,测试时候给定待获取字幕图像,将训练好的多字幕生成模型执行前向传递,得到多字幕生成结果。
在卷积神经网络检测模型中,根据提取的特征图得到目标框和目标类别,然后在循环神经网络预测模型中根据目标框和目标类别得到字幕。
作为优选,所述密集连接聚合残差块为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710896059.7/2.html,转载请声明来源钻瓜专利网。