[发明专利]一种基于CNN-LSTM的图像字幕压缩方法在审
申请号: | 202110257657.6 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113326840A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 王小华;令狐彬;焦璐璐;宋晓晨 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06F16/174;G06N3/04;G06N3/08 |
代理公司: | 深圳科润知识产权代理事务所(普通合伙) 44724 | 代理人: | 李小妮 |
地址: | 030000 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cnn lstm 图像 字幕 压缩 方法 | ||
本发明属于图像处理技术领域,具体涉及一种基于CNN‑LSTM的图像字幕压缩方法,包括如下步骤:数据采集、数据预处理、模型构建、模型评价,所述数据采集下载公共数据集flickr8k,对获取图像进行数据标注,根据图像内容进行描述,完成数据集构建;所述数据预处理对数据集进行预处理,包括尺度缩放、数据归一化和数据划分三种方式;所述模型构建采用CNN‑LSTM模型用于数据训练,模型由编码器VGG16和解码器LSTM组成,编码器获取提取的特征,并使用特征来训练解码器,同时将部分不太重要的权值进行修剪,并将解码器使用的LSTM模型进行量化处理;所述模型评价当模型的损失函数不再降低之后,保存模型,并进行评价。
技术领域
本发明属于图像处理技术领域,具体涉及一种基于CNN-LSTM的图像字幕压缩方法。
背景技术
现代神经网络在实现计算机视觉、自然语言处理和相关领域的任务具有最先进的性能且表现突出,然而,这种复杂的网络需要很大的计算空间,阻碍了它们在低功耗移动设备上的可移植性,并且由于现代移动设备的外形轻盈,这进一步限制了它们的功率和热容量,进一步阻碍了它们在资源有限的边缘设备上的部署。
存在问题或缺陷的原因:近年来,先进的剪枝和量化算法在不影响网络性能的情况下对此类网络进行压缩方面获得了良好的发展势头,修剪有助于减少对网络性能变化不太敏感的参数,另一方面,量子化在网络工作周期中以较低的位精度进行计算,这两种方法的协同使更快的推理时间和高效存储大型和密集的神经网络,但如何将剪枝和量化方法与深度学习模型搭配使用仍然是当前的难点。
发明内容
针对上述神经网络图像处理技术模型效率低等问题,本发明提供了一种基于CNN-LSTM的图像字幕压缩方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于CNN-LSTM的图像字幕压缩方法,包括下列步骤:
S100、数据采集:下载公共数据集flickr8k,对获取图像进行数据标注,根据图像内容进行描述,完成数据集构建;
S200、数据预处理:对数据集进行预处理,包括尺度缩放、数据归一化和数据划分三种方式;
S300、模型构建:采用CNN-LSTM模型用于数据训练,模型由编码器VGG16和解码器LSTM组成,编码器获取提取的特征,并使用特征来训练解码器,同时将部分不太重要的权值进行修剪,并将解码器使用的LSTM模型进行量化处理;
S400、模型评价:当模型的损失函数不再降低之后,保存模型,并进行评价。
所述S100数据采集中,公共数据集flickr8k数据集中包含8000张图像,每张图像都与五个不同的标题进行配对。
所述S200数据预处理中,所述尺度缩放将数据划分后的所有数据进行缩放,按其大小比例调整为统一尺寸;所述数据归一化对所有数据进行归一化操作,方式为对每个像素点除以225,所述数据划分使用交叉验证法将数据集进行划分,数据集随机选取90%的样本作为训练集,剩余10%的样本作为测试集。
所述S300模型构建中,编码器VGG16从输入图像中提取有意义的特征,采用渐进式存储,将经过修剪预先训练的VGG16模型所提取的特征分别存储,然后将特征输入解码器中,修剪方式为将不太重要的权值进行零屏蔽,相对于损失函数的梯度,修剪有不同的层次,一般从50%到95%不等,本模型中,第0个epoch数之后,权重值小于阈值的掩模被设置为零,公式为:其中t0是一个超参数;Si的下界通常为0%;sf的上界通常为50%到95%;二值掩模每Δt步更新一次,逐渐训练网络以达到最终的稀疏级别;n表示epoch。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257657.6/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序