[发明专利]基于物体显著性和跨模态融合特征的图片描述生成方法有效

申请号：	201910544985.7	申请日：	2019-06-21
公开（公告）号：	CN110276396B	公开（公告）日：	2022-12-06
发明（设计）人：	何立火;张怡;高新波;路文;屈琳子;钟炎喆;邢志伟;李琪琦	申请（专利权）人：	西安电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于物体显著性和跨模态融合特征的图片描述生成方法，主要解决现有方法生成图片描述时物体类别表述不够准确以及图片和文字特征跨模态的问题，其实现步骤为：1.采用Faster R‑CNN+ResNet‑101网络，检测图片显著性区域的视觉特征和物体类别信息；2.采用特征融合算法生成文字特征和图片视觉特征的融合特征；3.注意力长短时记忆网络利用融合特征对图片的视觉特征及其物体类别信息进行加权；4.译码器长短时记忆网络利用加权后的视觉特征和物体类别信息时序地生成图片的自然语言描述。本发明具有生成图片描述物体类别表述准确，语句流畅的优点，可用于社交多媒体检索、盲人读图和辅助视频监控。
搜索关键词：	基于物体显著跨模态融合特征图片描述生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于物体显著性和跨模态融合特征的图片描述生成方法，其特征在于，包括如下：(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分，得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E；(2)统计MSCOCO数据库中所有单词出现次数，用出现次数大于5次的单词建词典并将其表示成独热编码形式，词典中单词总数记为L；(3)对数据库中的图片，生成其对应的内容描述A：(3a)针对一张图片，采用时序的方式生成当前图片对应的文字描述A＝{y₁,...,y_t‑1,...,y_T}，其中y_t表示t时刻生成的单词，T表示该幅图片对应的描述的总单词数；(3b)使用Faster R‑CNN+ResNet‑101网络检测该图片的显著性区域，提取这些区域的视觉特征信息S＝{v₁,v₂,...,v_i,...,v_n}及其对应的物体类别信息B＝{b₁,b₂,...,b_i,...,b_n}，其中v_i表示第i个显著性区域的视觉特征，b_i表示第i个显著性区域的对应的物体类别，i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量；(3c)设t‑1时刻译码器LSTM网络隐藏层单元的状态向量为译码器网络生成单词为w_t‑1；(3d)采用跨模态特征融合算法，利用该图片的视觉特征S和t‑1时刻生成单词w_t‑1计算当前时刻的融合特征z_t；(3e)将t‑1时刻译码器长短时记忆网络LSTM隐藏层状态向量和t时刻融合特征z_t与视觉特征S及其对应的物体类别B的词嵌入向量C级联，计算t时刻记忆力长短时记忆网络LSTM隐藏层状态向量和t时刻视觉特征S与词嵌入向量C的共享权重α_t；(3f)利用图片的视觉特征S及其对应词嵌入向量C和t时刻的共享权重α_t计算t时刻的加权平均视觉特征和加权平均物体类别的词嵌入向量(3g)将t时刻加权平均视觉特征加权平均物体类别的词嵌入向量和注意力长短时记忆网络LSTM的隐藏层状态向量级联作为译码器的输入，计算t时刻译码器长短时记忆网络LSTM的隐藏层状态向量和t时刻译码器生成的单词y_t；(4)将训练集中图片每10张划分为一组，以组为单位按照(3)生成训练集Q图片描述，并与数据库中该组图片对应的人工标注的描述进行对比，使用交叉熵函数计算损失，优化网络参数；(5)按照(3)生成验证集V所有图片对应的描述，并与数据库中对应人工标注的描述对比，利用验证指标，测试当前网络的性能；(6)重复(4)‑(5)，直到前后两次网络性能的指标值变化在±0.2％的范围内时，得到训练好的网络；(7)将测试集E所有图片输入到训练好的网络中，时序地生成对图片的自然语言描述。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910544985.7/，转载请声明来源钻瓜专利网。

上一篇：基于正则化动态集成的不平衡数据分类方法
下一篇：一种基于门机制的图像特征提取方法、装置和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于物体显著性和跨模态融合特征的图片描述生成方法有效

专利文献下载