[发明专利]一种图像描述方法、装置、设备、存储介质在审
申请号: | 202210311348.7 | 申请日: | 2022-03-28 |
公开(公告)号: | CN114581543A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 周涛;邵蒙悦;吴婕;李天鹏;庄林志;吴吉灵 | 申请(专利权)人: | 济南博观智能科技有限公司 |
主分类号: | G06T9/00 | 分类号: | G06T9/00;G06N3/04;G06N3/08;G06V10/40;G06V10/82 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张艺 |
地址: | 250001 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 描述 方法 装置 设备 存储 介质 | ||
本申请公开了一种图像描述方法、装置、设备及存储介质,包括:提取待描述图像的图像特征图和掩膜信息;对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息;利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果;利用预设文本提取器,从预先编码的文本中提取文本信息,并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中,以生成所述待描述图像对应的文本。通过本申请可以提取到前景与背景之间的语义信息,并将掩膜信息作为位置编码,有利于整体结构收敛,能够提高整体适应性和鲁棒性,减少编解码计算量,实现更加准确的图像描述。
技术领域
本发明涉及图像处理技术领域,特别涉及一种图像描述方法、装置、设备、存储介质。
背景技术
当前,计算机将图像中的场景、色彩、目标等底层视觉特征自动建立关系,得到人类可以理解的高层语义信息,即对该图像的文字描述。该技术可以应用于人文关怀、智慧家居、智慧交通、医疗诊断等领域,比如可以帮助视障人士了解身边物体,马路情况等;在安防场景中,可以直接根据摄像头获取的场景图像,并对场景中目标的危险行为进行直接预警等;在医疗诊断领域,可以通过医疗影像直接得到诊断结果,提高医生诊断效率;图像描述这项技术对人们的日常生活有着重要的实际意义。
现有技术中,图像描述可以简单地分为两部分:图像特征提取和编解码结构;目前常用Faster R-CNN(目标检测算法)进行图像特征的提取,再通过主流的编解码结构Transformer完成图像与文本信息的融合。但这种方式提取的更多是前景目标的特征,获得的图像信息并不全面,影响图像描述结果的准确性;同时使用现有的Transformer编解码结构使得模型的计算量巨大,训练得到的模型实用性差。
综上可见,如何提取到更丰富的图像信息,并减少编解码计算量,实现更加准确的图像描述是本领域有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种图像描述方法、装置、设备、存储介质,能够提取到更丰富的图像信息,并减少编解码计算量,实现更加准确的图像描述。其具体方案如下:
第一方面,本申请公开了一种图像描述方法,包括:
提取待描述图像的图像特征图和掩膜信息;
对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息;
利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果;
利用预设文本提取器,从预先编码的文本中提取文本信息,并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中,以生成所述待描述图像对应的文本。
可选的,所述提取待描述图像的图像特征图和掩膜信息,包括:
基于全景分割算法对待描述图像的图像特征图中的前景目标与背景进行特征提取,以得到所述前景目标与所述背景之间的关联性、不同所述前景目标之间的关联性以及掩膜信息;
相应的,所述利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果,包括:
利用所述预设编码器对所述前景目标与所述背景之间的关联性和不同所述前景目标之间的关联性进行处理,以得到相应的图像特征图编码结果。
可选的,所述对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息,包括:
将所述图像特征图和所述掩膜信息输入预设下采样模块中,以得到降维后的目标图像特征图以及作为位置编码的目标掩膜信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南博观智能科技有限公司,未经济南博观智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210311348.7/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序