[发明专利]一种基于神经网络及图像关注点的图像描述生成方法有效
申请号: | 201611169242.9 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106777125B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 胡海峰;杨梁;王腾;张俊轩;王伟轩 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 528300 广东省佛山市顺德区大良*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于神经网络及图像关注点的图像描述生成方法,该方法采用两层字嵌入结构,而不是原先的一层嵌入结构,这样更有效的学习字表达;图像的特征表达是直接作为m‑RNN模型的输入的,这样能充分利用循环层的容量,允许使用小维度的循环层;借助决策软关注机制,本发明将图像显著区域的关注度体现出来,并作为多模态层的一个输入。通过这个方式,有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。 | ||
搜索关键词: | 一种 基于 神经网络 图像 关注点 描述 生成 方法 | ||
【主权项】:
一种基于神经网络及图像关注点的图像描述生成方法,其特征在于,包括以下步骤:S1:构建每一时刻帧t的图像的多模态模型:1)训练集中已标注图像的文本描述信息分成单个字集,用one‑hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt;2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t‑1的循环层Rt‑1共同决定的;3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;S2:对构建的模型进行训练:整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611169242.9/,转载请声明来源钻瓜专利网。
- 上一篇:语义认知方法、装置及系统
- 下一篇:一种支持异构时序数据库的数据在线迁移方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序