[发明专利]基于深度神经网络的智能图像自动描述方法有效
申请号: | 201910722270.6 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110598713B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 纪荣嵘;陈福海;沈忱 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/70;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 神经网络 智能 图像 自动 描述 方法 | ||
1.基于深度神经网络的智能图像自动描述方法,其特征在于包括以下步骤:
1)描述数据预处理;
2)抽取图像深度卷积特征和语义信息,具体方法如下:
(1)使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征图,表示为FI∈R14×14×2048;此处14×14为图像的特征区域块,2048表示为每个特征块的特征维度;
(2)对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,再利用NLTK工具进行名词提取,将名词作为物体语义概念,统计物体语义概念出现的频数;利用Sigmoid函数,将名词出现的频数转化为一个0到1之间的小数;最后,一张图片,得到一个物体语义概念词表长度的向量,该表长度为4267;在由此构成的标签上进行多标签分类训练,采用多个Sigmoid交叉熵损失;为了平衡正负样本之间数量的差距,增大了损失上正样本的权重,扩大为原来的十倍;以F1分值作为指标衡量其在验证集上的好坏;采用Adam优化算法,初始学习率为0.4,每10轮进行一次衰减,衰减率为0.9,迭代至收敛;在提取物体语义信息时,在MS COCO图像自动描述数据集上进行输出的是Sigmoid函数层后得到的概率,最后的输出维度为4267;
(3)使用残差深度卷积网络对图片上保留前5个预测场景的概率,最后的输出维度为366;
3)基于多层级视觉语义嵌入的智能图像自动描述,具体方法如下:
(1)使用双层循环神经网络处理对于物体语义概念和局部抽象特征的关注和嵌入,循环神经网络中的处理单位为长短时记忆神经网络;第一层长短时记忆神经网络是自上而下注意力的长短时记忆神经网络,用于根据第二层语言长短时记忆神经网络的输出和状态,去处理对于物体语义概念和局部抽象特征的关注和嵌入;在这个注意力长短时记忆神经网络中,每一步的输入是前一个语言长短时记忆神经网络的输出和一个编码过的前一个产生后的单词:
其中,zt是t时刻下独热编码的输入词汇,而是一个对于Q大小词汇表的词嵌入矩阵,这个词嵌入矩阵是通过随机初始化后学习得到的,没有经过预先训练;
(2)自上而下注意力长短时记忆神经网络接受上一时刻语言长短时记忆神经网络隐层状态和这一时刻单词编码Wezt作为输入,产生的隐层状态送入因式分解的注意力模块中,嵌入转成对角矩阵的场景语义信息S=diag(vscene)引导注意力得到加权后的局部抽象特征和物体语义概念,最后一起送入语言长短时记忆神经网络中得到单词的输出;
为了能将场景语义信息vscene在注意力长短时记忆神经网络输出中进行显式地嵌入,设计因式分解的注意力机制模块,将传统注意力机制中隐藏状态权重Wh进行因式分解成为UhSVh,公式如下:
Wh=UhSVh
其中,和S=diag(vscene)是场景语义信息vscene的对角化矩阵;S的作用是对隐藏层状态嵌入描述场景的内容,并直接影响接下来的两个注意力引导和描述生成;
(3)为了能让模型在生成单词的时候动态地去关注图像空间特征,得到更丰富的细节描述,保留图像局部抽象特征的注意力嵌入方式;对于L个图像局部抽象特征vi,根据注意力第一层长短时记忆神经网络隐藏层状态和对角化后的场景语义信息S,通过如下计算方式得到一个经过标准化的权重αi,t:
αt=Softmax(at)
其中,和是可学习的参数;
图像局部抽象特征vconv点乘上权重αt进行加权求和后,用在第二层语言长短时记忆神经网络中:
(4)对于C维物体语义概念根据第一层注意力长短时记忆神经网络的输出和对角化后的场景语义信息S,进行计算得到一个经过标准化的权重βi,t,其公式如下:
βt=Softmax(bt)
其中,和是可学习的参数;
C维的物体语义概念vobj经过维度变换后点乘权重,得到经过场景语义信息嵌入的高层物体语义概念也用在第二层语言长短时记忆神经网络中;
(5)第二层语言长短时记忆神经网络得到注意力机制处理后的图像信息后,进行当前单词的生成;第二层语言长短时记忆神经网络的输入包含了带场景注意力的图像局部抽象特征带场景注意力的语义概念和第一层注意力长短时记忆神经网络的隐藏层状态
其中,和是可学习的参数和偏置;
第二层长短时记忆神经网络单词概率分布p2不仅参与训练过程中的优化,还进行测试时的“采样”;
完整输出序列的概率分布是条件概率分布的乘积:
2.如权利要求1所述基于深度神经网络的智能图像自动描述方法,其特征在于在步骤1)中,所述描述数据预处理的具体方法为:对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于5的单词进行了剔除,使用“UNK”进行替代,同时加入了开始符“BOS”和结束符“END”分别在描述句子的开头和结尾。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910722270.6/1.html,转载请声明来源钻瓜专利网。