[发明专利]基于物体显著性和跨模态融合特征的图片描述生成方法有效
申请号: | 201910544985.7 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110276396B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 何立火;张怡;高新波;路文;屈琳子;钟炎喆;邢志伟;李琪琦 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于物体显著性和跨模态融合特征的图片描述生成方法,主要解决现有方法生成图片描述时物体类别表述不够准确以及图片和文字特征跨模态的问题,其实现步骤为:1.采用Faster R‑CNN+ResNet‑101网络,检测图片显著性区域的视觉特征和物体类别信息;2.采用特征融合算法生成文字特征和图片视觉特征的融合特征;3.注意力长短时记忆网络利用融合特征对图片的视觉特征及其物体类别信息进行加权;4.译码器长短时记忆网络利用加权后的视觉特征和物体类别信息时序地生成图片的自然语言描述。本发明具有生成图片描述物体类别表述准确,语句流畅的优点,可用于社交多媒体检索、盲人读图和辅助视频监控。 | ||
搜索关键词: | 基于 物体 显著 跨模态 融合 特征 图片 描述 生成 方法 | ||
【主权项】:
1.一种基于物体显著性和跨模态融合特征的图片描述生成方法,其特征在于,包括如下:(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分,得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E;(2)统计MSCOCO数据库中所有单词出现次数,用出现次数大于5次的单词建词典并将其表示成独热编码形式,词典中单词总数记为L;(3)对数据库中的图片,生成其对应的内容描述A:(3a)针对一张图片,采用时序的方式生成当前图片对应的文字描述A={y1,...,yt‑1,...,yT},其中yt表示t时刻生成的单词,T表示该幅图片对应的描述的总单词数;(3b)使用Faster R‑CNN+ResNet‑101网络检测该图片的显著性区域,提取这些区域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;(3c)设t‑1时刻译码器LSTM网络隐藏层单元的状态向量为
译码器网络生成单词为wt‑1;(3d)采用跨模态特征融合算法,利用该图片的视觉特征S和t‑1时刻生成单词wt‑1计算当前时刻的融合特征zt;(3e)将t‑1时刻译码器长短时记忆网络LSTM隐藏层状态向量
和t时刻融合特征zt与视觉特征S及其对应的物体类别B的词嵌入向量C级联,计算t时刻记忆力长短时记忆网络LSTM隐藏层状态向量
和t时刻视觉特征S与词嵌入向量C的共享权重αt;(3f)利用图片的视觉特征S及其对应词嵌入向量C和t时刻的共享权重αt计算t时刻的加权平均视觉特征
和加权平均物体类别的词嵌入向量
(3g)将t时刻加权平均视觉特征
加权平均物体类别的词嵌入向量
和注意力长短时记忆网络LSTM的隐藏层状态向量
级联作为译码器的输入,计算t时刻译码器长短时记忆网络LSTM的隐藏层状态向量
和t时刻译码器生成的单词yt;(4)将训练集中图片每10张划分为一组,以组为单位按照(3)生成训练集Q图片描述,并与数据库中该组图片对应的人工标注的描述进行对比,使用交叉熵函数计算损失,优化网络参数;(5)按照(3)生成验证集V所有图片对应的描述,并与数据库中对应人工标注的描述对比,利用验证指标,测试当前网络的性能;(6)重复(4)‑(5),直到前后两次网络性能的指标值变化在±0.2%的范围内时,得到训练好的网络;(7)将测试集E所有图片输入到训练好的网络中,时序地生成对图片的自然语言描述。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910544985.7/,转载请声明来源钻瓜专利网。