[发明专利]一种基于神经网络及图像关注点的图像描述生成方法有效
申请号: | 201611169242.9 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106777125B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 胡海峰;杨梁;王腾;张俊轩;王伟轩 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 528300 广东省佛山市顺德区大良*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 图像 关注点 描述 生成 方法 | ||
1.一种基于神经网络及图像关注点的图像描述生成方法,其特征在于,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt;
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入,进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
2.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
3.根据权利要求2所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤2)中,对于每一时刻帧的循环层Rt激活,是由当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1转换到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
4.根据权利要求3所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
5.根据权利要求4所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤4)中,通过LSTM中隐藏层的信息,借助关注模型,得出相关关注区域的权重值,并用决策软机制计算出带有区域关注信息的上下文向量:
Eti=fatt(ai,ht-1)
其中fatt是基于先前隐藏状态ht-1的多层感知机,ai是图像i区域的特征向量,αti是t时刻帧和图像区域i关注度的权重值:
其中zt是t时刻帧的上下文相关向量,是决策软机制,这里定义成如下式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611169242.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语义认知方法、装置及系统
- 下一篇:一种支持异构时序数据库的数据在线迁移方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序