[发明专利]一种生成描述图像内容的自然语言的方法与系统有效

专利信息
申请号: 201711265210.3 申请日: 2017-12-05
公开(公告)号: CN107918782B 公开(公告)日: 2020-01-21
发明(设计)人: 唐胜;李灵慧;张勇东;李锦涛 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 11280 北京泛华伟业知识产权代理有限公司 代理人: 王勇
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 生成 描述 图像 内容 自然语言 方法 系统
【说明书】:

发明提供了一种训练用于生成描述图像内容的自然语言的模型的方法,以及采用所述模型生成描述图像内容的自然语言的方法。其中,所述训练方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax

技术领域

本发明涉及图像处理,尤其涉及对图像内容的描述。

背景技术

图像自动描述指的是通过计算机自动生成自然语言语句以描述给定图像的内容。相较于图像分类、目标检测等基础任务,图像自动描述生成任务更复杂并且更具有挑战性,其对于图像内容理解具有重要意义。图像自动描述生成不仅需要计算机识别出一幅图像中存在的物体,还要识别出物体间的关系、行为活动等,并且使用自然语言描述识别出的语义信息。图像自动描述可以应用到许多场景,例如图像文本检索系统、儿童早教系统以及盲人导航等应用。

迄今为止,研究者已经提出很多方法生成图像描述。根据描述的生成方式,可将这些方法分成三个类别:基于模板的方法、基于迁移的方法、以及基于神经网络的方法。

基于模板的方法,首先使用分类器识别出图像的物体、属性以及关系,然后使用一个自然语言句子模板将识别出的物体、属性、和关系组成一个完整的句子。这类方法的优点是简单直观,缺点是受限于句子模板,不能生成语义丰富的句子。

基于迁移的方法,首先利用基于内容的检索方法检索到待生成图像的相似图像,然后直接将相似图像的描述应用到待检索图像。这类方法的优点是可以生成语法准确的句子,缺点是生成的句子可能会偏离图像的真实内容。

最近,受深度神经网络在图像识别任务和机器翻译上的成功应用,出现了许多基于神经网络的图像自动描述生成方法。这类方式是基于卷积神经网络(ConvolutionalNeural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)框架。此类方法首先利用卷积神经网络编码图像,其次利用循环神经网络解码图像为自然语句。与前两类方法相比,受益于循环神经网络可以捕获动态时序信息、以及卷积神经网络可以捕获图像视觉信息的能力,基于神经网络的方法可以产生语义丰富且语法更准确的句子。

然而,大多数被提出的基于卷积神经网络的方法仅仅使用了图像的全局特征,以至于图像的某些物体就识别不到。因此,当生成图像的文本描述时,就会导致图像中的某些物体信息丢失。例如,在图1(i)的(a)中,通过上述现有技术生成的句子中仅描述了“一组人站在被雪覆盖的斜坡上”而遗漏了这些人身穿的“滑雪板”,致使在描述所述图像时缺少对图像中人们正在执行的行为的信息描述。除此之外,由于图像的全局特征是一种较粗粒度的特征,这可能导致在生成描述句子时图像识别错误。例如,参考图1(ii)的(a),通过上述现有技术生成的句子中将放置在足球场上的物体识别为“足球”,这样的粗粒度描述使得图像中的“风筝”被错误地描述为“足球”。

发明内容

因此,本发明的目的在于克服上述现有技术的缺陷,提供一种训练用于生成描述图像内容的自然语言的模型的方法,包括:

A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;

A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;

其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711265210.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top