[发明专利]一种生成描述图像内容的自然语言的方法与系统有效
申请号: | 201711265210.3 | 申请日: | 2017-12-05 |
公开(公告)号: | CN107918782B | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 唐胜;李灵慧;张勇东;李锦涛 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 11280 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 描述 图像 内容 自然语言 方法 系统 | ||
本发明提供了一种训练用于生成描述图像内容的自然语言的模型的方法,以及采用所述模型生成描述图像内容的自然语言的方法。其中,所述训练方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。
技术领域
本发明涉及图像处理,尤其涉及对图像内容的描述。
背景技术
图像自动描述指的是通过计算机自动生成自然语言语句以描述给定图像的内容。相较于图像分类、目标检测等基础任务,图像自动描述生成任务更复杂并且更具有挑战性,其对于图像内容理解具有重要意义。图像自动描述生成不仅需要计算机识别出一幅图像中存在的物体,还要识别出物体间的关系、行为活动等,并且使用自然语言描述识别出的语义信息。图像自动描述可以应用到许多场景,例如图像文本检索系统、儿童早教系统以及盲人导航等应用。
迄今为止,研究者已经提出很多方法生成图像描述。根据描述的生成方式,可将这些方法分成三个类别:基于模板的方法、基于迁移的方法、以及基于神经网络的方法。
基于模板的方法,首先使用分类器识别出图像的物体、属性以及关系,然后使用一个自然语言句子模板将识别出的物体、属性、和关系组成一个完整的句子。这类方法的优点是简单直观,缺点是受限于句子模板,不能生成语义丰富的句子。
基于迁移的方法,首先利用基于内容的检索方法检索到待生成图像的相似图像,然后直接将相似图像的描述应用到待检索图像。这类方法的优点是可以生成语法准确的句子,缺点是生成的句子可能会偏离图像的真实内容。
最近,受深度神经网络在图像识别任务和机器翻译上的成功应用,出现了许多基于神经网络的图像自动描述生成方法。这类方式是基于卷积神经网络(ConvolutionalNeural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)框架。此类方法首先利用卷积神经网络编码图像,其次利用循环神经网络解码图像为自然语句。与前两类方法相比,受益于循环神经网络可以捕获动态时序信息、以及卷积神经网络可以捕获图像视觉信息的能力,基于神经网络的方法可以产生语义丰富且语法更准确的句子。
然而,大多数被提出的基于卷积神经网络的方法仅仅使用了图像的全局特征,以至于图像的某些物体就识别不到。因此,当生成图像的文本描述时,就会导致图像中的某些物体信息丢失。例如,在图1(i)的(a)中,通过上述现有技术生成的句子中仅描述了“一组人站在被雪覆盖的斜坡上”而遗漏了这些人身穿的“滑雪板”,致使在描述所述图像时缺少对图像中人们正在执行的行为的信息描述。除此之外,由于图像的全局特征是一种较粗粒度的特征,这可能导致在生成描述句子时图像识别错误。例如,参考图1(ii)的(a),通过上述现有技术生成的句子中将放置在足球场上的物体识别为“足球”,这样的粗粒度描述使得图像中的“风筝”被错误地描述为“足球”。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种训练用于生成描述图像内容的自然语言的模型的方法,包括:
A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;
A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;
其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711265210.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钕铁硼废料回收用清洗筛分装置
- 下一篇:具有循环泵的洗涤物护理器具
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法