[发明专利]一种图像描述方法、图像描述装置及计算机存储介质有效
申请号: | 201911047776.8 | 申请日: | 2019-10-30 |
公开(公告)号: | CN111046904B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 杨敏;李成明;姜青山 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李庆波 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 描述 方法 装置 计算机 存储 介质 | ||
1.一种图像描述方法,其特征在于,所述方法包括:
获取待描述图像;
从预设图像样本中检索与所述待描述图像相匹配的目标图像以及用于对所述目标图像进行描述的目标描述文本;
利用长短期记忆网络将所述目标描述文本转换为隐藏序列;基于所述隐藏序列计算摘抄所述目标描述文本中的描述词语作为当前描述词语的第一概率;其中,采用以下公式计算所述第一概率:
其中,是一个非线性的激活函数,Uc为一个可学习参数,h′i为所述隐藏序列,pc(yt|y1:t1,v)为所述第一概率,y1:t-1为历史描述词语;
以及对所述待描述图像进行特征提取,以得到特征向量;对所述特征向量进行池化处理;将池化处理后的所述特征向量输入双层注意力网络,以得到待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数;根据所述待生成的当前描述词语与所述前一已生成的历史描述词语之间的关系参数,计算生成新的所述当前描述词语的第二概率;其中,采用以下公式计算所述第二概率:
其中,Ug和bg为可学习的参数,为所述关系参数,v为所述特征向量,y1:t-1为所述历史描述词语;
比较所述第一概率和所述第二概率的大小,确定摘抄所述目标描述文本中的描述词语作为所述当前描述词语或生成新的所述当前描述词语,以进一步生成对所述待描述图像的描述文本。
2.根据权利要求1所述的方法,其特征在于,
所述从预设图像样本中检索与所述待描述图像相匹配的目标图像以及用于对所述目标图像进行描述的目标描述文本,包括:
对所述待描述图像进行特征提取,以得到特征向量;
利用所述特征向量在所述预设图像样本中搜索相似度大于设定阈值的多个样本图像;
获取与所述多个样本图像对应的多个描述文本;
从所述多个描述文本中确定与所述待描述图像相匹配的目标描述文本。
3.根据权利要求2所述的方法,其特征在于,
所述从所述多个描述文本中确定与所述待描述图像相匹配的目标描述文本,包括:
计算所述多个描述文本中每个描述文本,与所述多个描述文本中剩余的描述文本的相似度;
选择相似度最大的一个描述文本作为所述目标描述文本。
4.根据权利要求1所述的方法,其特征在于,
所述双层注意力网络包括第一长短期记忆网络和第二长短期记忆网络;
所述将池化处理后的所述特征向量输入双层注意力网络,以得到所述待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数,包括:
将池化处理后的所述特征向量、所述第二长短期记忆网络输出的前一关系参数、所述前一已生成的历史描述词语,输入至所述第一长短期记忆网络,以得到第一关系参数;
将所述特征向量和所述第一关系参数,输入至所述第二长短期记忆网络,以得到第二关系参数。
5.根据权利要求4所述的方法,其特征在于,
所述将所述特征向量和所述第一关系参数,输入至所述第二长短期记忆网络,以得到第二关系参数,包括:
对所述特征向量引入注意力机制;
将引入注意力机制后的所述特征向量和所述第一关系参数,输入至所述第二长短期记忆网络,以得到第二关系参数。
6.根据权利要求1所述的方法,其特征在于,
所述方法还包括:
利用所述待描述图像的特征、所述目标描述文本、以及生成的所述待描述图像的描述文本,输入至判别器,以计算所述对所述待描述图像的描述文本为真的概率。
7.一种图像描述装置,其特征在于,包括处理器和存储器,所述处理器耦接所述存储器,其中,
所述存储器用于存储所述处理器执行的计算机程序;
所述处理器用于执行所述计算机程序以实现如权利要求1~6任一项所述的图像描述方法。
8.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序在被处理器执行时,用于实现权利要求1-6中任一项所述的图像描述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911047776.8/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序