[发明专利]一种基于神经网络及图像关注点的图像描述生成方法有效

申请号：	201611169242.9	申请日：	2016-12-16
公开（公告）号：	CN106777125B	公开（公告）日：	2020-10-23
发明（设计）人：	胡海峰;杨梁;王腾;张俊轩;王伟轩	申请（专利权）人：	广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/46;G06N3/04;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	528300 广东省佛山市顺德区大良***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于神经网络及图像关注点的图像描述生成方法，该方法采用两层字嵌入结构，而不是原先的一层嵌入结构，这样更有效的学习字表达；图像的特征表达是直接作为m‑RNN模型的输入的，这样能充分利用循环层的容量，允许使用小维度的循环层；借助决策软关注机制，本发明将图像显著区域的关注度体现出来，并作为多模态层的一个输入。通过这个方式，有效地利用了目标或场景间的轻重关系，针对性地描绘图像的语义特性。
搜索关键词：	一种基于神经网络图像关注点描述生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于神经网络及图像关注点的图像描述生成方法，其特征在于，包括以下步骤：S1：构建每一时刻帧t的图像的多模态模型：1)训练集中已标注图像的文本描述信息分成单个字集，用one‑hot向量表示对应字，作为模型的文本模块的输入，并经过两个嵌入层投影至一个稠密字表达空间，成为具有语义的字表达向量Wt；2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算，该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t‑1的循环层Rt‑1共同决定的；3)已标注图像经过一个卷积神经网络CNN，并提取图像的L个显著特征；4)图像的特征作为LSTM的输入，LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度，其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量；5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加，再用元素比例双曲线正切函数激活，最后通过softmax层得到下一字的概率分布；S2：对构建的模型进行训练：整个模型的损失函数是对应图片的文本标注的混乱度，其等价于字集的平均对数似然值，对其使用标准梯度下降算法，通过反向传播算法学习模型参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学，未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611169242.9/，转载请声明来源钻瓜专利网。

上一篇：语义认知方法、装置及系统
下一篇：一种支持异构时序数据库的数据在线迁移方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于神经网络及图像关注点的图像描述生成方法有效

专利文献下载