[发明专利]图像段落描述生成方法、装置、介质及电子设备在审
申请号: | 201910629398.8 | 申请日: | 2019-07-12 |
公开(公告)号: | CN111753078A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 潘滢炜;姚霆;梅涛 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/36;G06F16/583 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;袁礼君 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 段落 描述 生成 方法 装置 介质 电子设备 | ||
本发明提出一种图像段落描述生成方法、装置、介质及电子设备。图像段落描述生成方法包括:获取图像的图像特征;根据图像特征使用卷积自动编码方法确定图像的主题;根据主题使用基于长短期记忆网络LSTM的段落编码确定所述图像的图像描述信息;其中,LSTM包括句子级LSTM及段落级LSTM。本发明提供的技术方案能够准确生成图像描述信息。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像段落描述生成方法、装置、介质及电子设备。
背景技术
图像处理技术领域广泛采用神经网络技术,来描述图像中的每个细节,以生成一个连贯的故事描述图像的视觉内容。对图像进行描述主要存在以下两个方面的问题:1)如何从图像中提取值得描述的主旨/主题? 2)如何在一个句子中描述每个主题,同时确保句子之间的连贯性从而形成一个段落?
相关技术中,对于图像的描述赖于RNN(Recurrent Neural Networks,递归神经网络),例如,LSTM(Long Short-Term Memory,长短期记忆网络)。具体的,把图像的区域特征通过平均融合编码为全局向量,随后将其输入LSTM以解码出主题。在这种情况下,所有图像区域之间的固有结构未被充分利用,使得难以将图像中的主题完整描述。此外,一些图像描述方法利用分层RNN通过输入区域特征生成描述图像的段落,其中分层 RNN包括句子RNN和单词RNN。具体的,句子RNN递归地生成以全局向量为条件的句子主题向量(即,区域特征的平均合并),随后采用单词 RNN将每个主题解码为输出语句。
然而,现有技术中的对图像描述的方法并没有将图像中的细节以及图像区域之间的关系充分利用,此外所生成的图像描述语句之间缺少连贯性。
需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明为解决上述的图形描述过程中细节描述充分及句子不够连贯的技术问题,提供一种能够准确生成图像描述信息的图像段落描述生成方法、装置、介质及电子设备。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一个方面,提供一种图像段落描述生成方法,包括:获取图像的图像特征;根据所述图像特征使用卷积自动编码方法确定所述图像的主题;根据所述主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息;其中,LSTM包括句子级LSTM及段落级LSTM。
在一个实施例中,所述图像特征包括所述图像的初始区域特征。
在一个实施例中,所述根据所述图像特征使用卷积自动编码方法确定所述图像的主题包括:通过连接所述初始区域特征构建初始区域特征向量;通过使用卷积编码方法对所述初始区域特征向量进行卷积获得主题向量;根据所述主题向量,确定所述图像的主题。
在一个实施例中,图像段落描述生成方法还包括:根据所述主题向量确定所述图像描述信息的句子的数量。
在一个实施例中,所述根据所述主题向量使用基于LSTM的段落编码方法确定所述图像的图像描述信息包括:根据所述融合图像特征使用所述段落级LSTM确定所述图像描述信息中的句子间依赖性及所述段落级 LSTM的输出向量;根据所述段落级LSTM的所述输出向量及所述主题向量,确定所述融合图像特征的注意力分布;根据所述注意力分布将所述融合图像特征进行加权处理得到被注意图像特征;将所述被注意图像特征、所述主题向量及所述段落级LSTM的所述输出向量输入所述句子级LSTM 获得所述主题的句子生成条件及描述所述主题的单词;根据所述句子生成条件及描述所述主题的所述单词确定所述图像描述信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910629398.8/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序