[发明专利]基于多尺度深度学习的图像问答方法在审

申请号：	201810004239.4	申请日：	2018-01-03
公开（公告）号：	CN108108771A	公开（公告）日：	2018-06-01
发明（设计）人：	马千里;余柳红	申请（专利权）人：	华南理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/46;G06N3/04
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于多尺度深度学习的图像问答方法，该方法受人类在图像问答中的认知行为启发，包括以下步骤：1)首先将同一图片按照需要设定为不同尺度大小的三幅图片，并采用预训练好的卷积神经网络提取图片特征，获取多尺度图片特征；2)利用递归神经网络来得到问句的特征表示，并接一个带不同卷积核大小的卷积层来获取n元问句特征表示；3)采用注意力转移机制来探索不同尺度的图片特征与n元问句表示之间的内在关联关系，即相似性度量；4)最后，融合不同尺度图片特征和n元问句特征，并使用层次网络结构，从大尺度到中尺度再到小尺度来推理预测问题的答案。本发明模拟人类在图像问答中的认知行为，并且在基准数据集上取得较高精度。
搜索关键词：	图片特征多尺度图像特征表示尺度认知递归神经网络卷积神经网络相似性度量注意力转移基准数据模拟人类内在关联网络结构大尺度卷积核小尺度中尺度并接卷积推理答案融合学习图片预测探索
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于多尺度深度学习的图像问答方法，其特征在于，所述的图像问答方法包括如下步骤：S1、对训练数据集中的图像，设定为大、中、小三种尺度图像，得到不同尺度的图像；S2、对不同尺度的图像，用预先训练好的卷积神经网络分别提取各个尺度的图像特征，得到大、中、小三种尺度图像特征，然后对每个尺度的特征采用二范数归一化；S3、对训练数据集中图像对应的问句，使用双向门循环神经网络获得问句特征表示；S4、将上述的问句特征表示，使用带有不同卷积核大小的单层卷积层，获得n元问句特征表示，包括一元问句特征、二元问句特征、三元问句特征；S5、采用注意力转移机制，计算各个尺度图像特征与n元问句特征之间的相似度，得到各个尺度图像特征的权重分布，以及n元问句特征的权重分布；S6、将各个尺度图像特征与相应的权重分布加权求和，得到各个尺度的注意力图像特征向量，将n元问句特征与相应的权重分布加权求和，得到n元问句注意力特征向量；S7、将各个尺度的注意力图像特征向量与相应n元问句注意力特征向量进行融合得到融合特征；S8、将上述的融合特征，从大尺度到中等尺度再到小尺度进行融合，使用层次多层感知机结构，推理预测问句的答案；S9、在训练数据集上不断重复S1到S8，直到验证集上的准确率达到预期目标或者网络的损失函数开始收敛；S10、将训练好的网络在测试集上进行测试。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810004239.4/，转载请声明来源钻瓜专利网。

上一篇：基于CRBM和Fisher网络的移动视觉搜索框架
下一篇：一种基于配电线路航拍图像的绝缘子污闪状态检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多尺度深度学习的图像问答方法在审

专利文献下载