[发明专利]图像标注语句自动生成方法有效
申请号: | 201810748973.1 | 申请日: | 2018-07-10 |
公开(公告)号: | CN108985370B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 白亮;刘爽;王昊冉;郭金林;郭延明 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 标注 语句 自动 生成 方法 | ||
本发明实施例公开了一种图像标注语句自动生成方法,包括:对给定图像进行特征提取得到图像局部特征和图像全局特征;在训练数据集中找到最近邻的多个训练图像;获取多个标注语句;对最大的所述平均相似度对应的所述标注语句进行转换处理以得到参考标注语句向量;初始化前一时间步的隐藏层状态;以及循环生成包括多个图像标注词语的图像标注语句。本发明实施例有效的提高了自动生成的图像标注语句的质量,生成的图像标注语句更符合人类说话的标准。
技术领域
本发明涉及计算机视觉和自然语言处理的一个典型结合应用——图像标注自动生成技术领域,尤其涉及一种图像标注语句自动生成方法。
背景技术
图像标注语句(又称图像文本或图像字幕)自动生成(Image captioning)面临的挑战是如何设计一个好的模型,这个模型能够充分利用图像信息并生成更多类似人类语言的丰富图像描述。生成有意义的描述,不仅需要算法识别图像中的对象,还要算法识别对象的属性和活动之间的关系,然后通过自然语言描述得到语义信息。
随着可拍照移动智能终端的广泛使用和互联网的快速发展,融合视觉和标注信息的多模态数据在急剧增加,例如,带文本标注的照片、报纸文章中的图文对照内容、带标题的视频以及社交媒体出现的多模态交互数据。多模态机器学习为机器提供了处理多模态数据的能力,多模态学习的长远目标是使机器充分感知环境,更智能地和环境进行交互。当前多模态处理包括图像/视频的文本描述、基于视觉的问答和看图讲故事等任务。对于图像标注自动生成任务,人类可以根据具体需要,轻松理解图像内容并以自然语言句子的形式表达;然而,对于计算机而言,完成图像标注语句自动生成任务则需要综合运用图像处理、计算机视觉、自然语言处理等主要领域的研究成果。目前还不清楚大脑如何理解图像并将视觉信息组织成语言。图像标注语句自动生成技术涉及到让计算机如何更好的理解人类,并通过这种方式以减轻人类的劳动力,因此这是一项涉及计算机视觉和自然语言处理技术的高级且复杂的任务。
尽管面临这些挑战,但通过深度神经网络的推进,这个问题在过去几年取得了显着的进步。图像视觉内容与相应描述之间的语义鸿沟已被广泛研究,例如文献“H.Fang,S.Gupta,F.N.Iandola,R.K.Srivastava,L.Deng,P.Dollar,J.Gao,X.He,M.Mitchell,J.C.Platt,C.L.Zitnick,′and G.Zweig.From captions to visual concepts andback.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2015,Boston,MA,USA,June 7-12,2015,pages 1473–1482,2015”和文献“O.Vinyals,A.Toshev,S.Bengio,and D.Erhan.Show and tell:A neural image caption generator.In IEEEConference on Computer Vision and Pattern Recognition,CVPR 2015,Boston,MA,USA,June 7-12,2015,pages 3156–3164,2015”。图像标注的经典框架是文献“O.Vinyals,A.Toshev,S.Bengio,and D.Erhan.Show and tell:A neural image captiongenerator.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR2015,Boston,MA,USA,June 7-12,2015,pages 3156–3164,2015”提出的基于CNN(Convolutional Neural Networks,卷积神经网络)图像编码器和RNN(Recurrent NeuralNetworks循环神经网络)句子解码器过程。与机器翻译的过程不同,这是两种语言之间的转换,图像标注的目标是将图像翻译成句子。从CNN编码器-RNN解码器的基本形式开始,已经有很多尝试来改进图像标注自动生成系统。受到机器翻译领域改进的启发,长期短期记忆(Longshort-term Memory,LSTM)网络已被用于解码器过程中,例如文献“O.Vinyals,A.Toshev,S.Bengio,and D.Erhan.Show and tell:A neural image captiongenerator.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR2015,Boston,MA,USA,June 7-12,2015,pages 3156–3164,2015”,因为它能够记忆通过存储器单元的长期相关性。这些方法使用CNN网络的全局图像表示作为LSTM网络的输入特征。还有一些人增加了一种注意机制,例如文献“K.Xu,J.Ba,R.Kiros,K.Cho,A.C.Courville,R.Salakhutdinov,R.S.Zemel,and Y.Bengio.Show,attend and tell:Neural imagecaption generation with visual attention.In Proceedings of the 32ndInternational Conference on Machine Learning,ICML 2015,Lille,France,6-11July2015,pages 2048–2057,2015”,可以自动处理图像的某些部分进行单词预测。它旨在帮助标注语句生成模型在进行单独预测时自动关注图像某些集中区域。注意机制在计算机视觉领域已被证明是有效和重要的。在接下来的工作中,许多研究工作一直致力于这个领域。例如在文献“L.Chen,H.Zhang,J.Xiao,L.Nie,J.Shao,W.Liu,and T.Chua.SCA-CNN:spatialand channel-wise attention in convolutional networks for image captioning.In2017IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017,pages 6298–6306,2017”中,还有一些人提出了在CNN中纳入空间和通道注意的(Spatial and Channel Attention-Convolutional NeuralNetworks)SCA-CNN方法。又一些人引入了一种自适应注意编码器-解码器框架,它可以自动决定何时依赖视觉信号以及何时只依赖语言模型。深度神经网络在测试精度上表现强大的学习能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810748973.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序