[发明专利]一种基于长短期记忆模型与目标检测算法的图像描述方法在审
申请号: | 201911098782.6 | 申请日: | 2019-11-12 |
公开(公告)号: | CN110909736A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 高逸凡;王勇 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 短期 记忆 模型 目标 检测 算法 图像 描述 方法 | ||
本发明涉及一种基于长短期记忆模型与目标检测算法的图像描述方法。该方法利用深度学习的基本理论,使用目标检测模型Faster‑RCNN对图片中各目标的主要特征进行提取,使用多个带有Attention机制的长短期记忆模型对Faster‑RCNN中提取到的信息进行解码,生成初步的描述语句,然后使用目标检测模型生成的图像内目标的类别和Attention机制来调整描述语句中的名词,从而进一步完善描述语句,生成对图像的最终描述。本发明所使用的方法提高了生成的描述语句与图片的相关度,增加了描述语句的准确性。
技术领域
本发明属于深度学习中图像描述生成领域,具体涉及一种基于长短期记忆模型与目标检测算法的图像描述方法。
背景技术
图像是人类社会活动中最常用的信息载体,其中蕴含了丰富的信息。随着互联网技术的发展及数码设备的普及,图像数据增长迅速,使用纯人工手段对图像内容鉴别已成为一项艰难的工作。因此,如何通过计算机自动提取图像所表达的信息,已成为图像理解领域的研究热点。图像描述生成是融合了自然语言处理和计算机视觉的一项较为综合的任务,目的是将视觉图像和语言文字联系起来,通过对所输入的图像进行特征提取分析,自动生成一段关于图像内容的文字描述,图像描述生成能够完成从图像到文本信息的转换,可以应用到图像检索,机器人问答,辅助儿童教育及导盲等多个领域,对图像描述生成的研究具有重要的现实意义。
所谓图像描述技术,其核心是在图像处理分析的基础上,结合计算机视觉和自然语言处理等相关理论,进而分析、理解图像内容,并以文本语义信息的形式反馈给人类。因此计算机对图像内容理解的完成不仅需要图像标注,还需要图像描述。图像描述的任务是使用自然语言处理技术分析并产生标注词,进而将生成的标注词组合为自然语言的描述语句。近年来,图像描述得到了研究界的极大兴趣,比起传统的图像标注工作,它具有更广阔的应用前景。
图像描述生成克服了人类主观认识的固有限制,借助计算机软件从一幅或多幅图像序列中生成与图像内容相关的文字描述。图像描述的质量主要取决于以下两个方面:一是对图像中所包含物体及场景的识别能力;二是对物体间相互联系等信息的认知程度。按照图像描述模型的不同,图像描述的方法可以分为三类:基于模板的方法,该方法生成的图像描述依赖于模板类型,形式也较为单一;基于检索的方法,依赖于数据集中现存的描述语句,无法生成较为新颖的图像描述;基于神经网络的方法,将卷积神经网络(ConvolutionalNeural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN)相结合,使用端对端的方法训练模型,利用CNN提取特征的优势和RNN处理文字序列的优势,共同指导图像文字描述的生成。此类方法是目前比较先进的图像描述生成方法,该方法克服了图像描述生成过程中生成的句式过于简单,输出严重依赖现存语句模板的问题,可以生成语法流畅,句式复杂多变的描述语句,但与此同时,却带来了新的问题:图像描述生成的描述语句与图片的关联度有所下降。所以本发明设计了一种新的图像描述模型,在之前端对端的Encoder-Decoder结构的基础上融合了图像目标检测算法,使生成的描述中所有的名词均依赖于目标检测结果,从而提高了生成描述与原图像的关联度。
发明内容
本发明的研究内容为:设计一种结合了编码器-解码器结构和图像目标检测算法的图像描述模型,并训练此模型使其可以用来生成相应的语言描述。具体结构如图1所示。模型主要通过目标检测算法提取图像中各目标区域的特征和全图的特征,然后通过循环神经网络在目标检测算法生成的所有目标区域中选择一个或多个目标区域作为描述中下一个词汇生成的依据,然后将其输入到相关语言模型中,生成相应的词汇。
本发明构建的图像中文描述模型主要由以下几个部分构成:
1.基于深度学习图像目标检测的编码模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911098782.6/2.html,转载请声明来源钻瓜专利网。